Podręcznik referencyjny Unicode (UTF-8) HTML

Związek Unicode

Związek Unicode opracował standard Unicode. Ich celem jest zastąpienie istniejących zestawów znaków standardem Unicode转换格式 (UTF).

Standard Unicode odniósł sukces i został zaimplementowany przez HTML, XML, Java, JavaScript, e-mail, ASP, PHP itp. W wielu systemach operacyjnych i we wszystkich nowoczesnych przeglądarkach wspierany jest standard Unicode.

Związek Unicode współpracuje z czołowymi organizacjami zajmującymi się rozwojem standardów (np. ISO, W3C i ECMA).

Zestawy znaków Unicode

Unicode może być realizowany przez różne zestawy znaków. Najczęściej używanymi kodowaniami są UTF-8 i UTF-16:

Zestaw znaków Wyjaśnienie
UTF-8

Długość znaku w UTF-8 może wynosić od 1 do 4 bajtów.

UTF-8 może reprezentować każdy znak z standardu Unicode.

UTF-8 jest kompatybilny z ASCII. UTF-8 jest preferowanym kodowaniem dla e-maili i stron internetowych

UTF-16

Format konwersji Unicode 16-bitowy to zmiennogłębokie kodowanie znaków Unicode, które może kodować całe zbiór Unicode.

UTF-16 jest używany w głównych systemach operacyjnych i środowiskach, takich jak Microsoft Windows, Java i .NET.

Komentarz:Pierwsze 128 znaków Unicode (pasujące do ASCII) są kodowane jednym ośmiobitowym bajtem, który ma takie same wartości binarne jak ASCII, co czyni z niego efektywne teksty ASCII również efektywnym kodowaniem UTF-8 Unicode.

Wskazówka:HTML 4 obsługuje UTF-8. HTML 5 obsługuje UTF-8 i UTF-16!

Standard HTML5: Unicode UTF-8

Ze względu na ograniczoną wielkość zestawu znaków w ISO-8859 oraz brak zgodności z wielojęzykowymi środowiskami, Związek Unicode opracował standard Unicode.

Standard Unicode (prawie) obejmuje wszystkie znaki, znaki przestankowe i symbole na świecie.

Unicode wspiera przetwarzanie, przechowywanie i przesyłanie tekstu niezależnie od platformy i języka.

Domyślnym kodowaniem znaków w HTML5 jest UTF-8.

Jeśli strona internetowa HTML5 używa zestawu znaków innego niż UTF-8, należy określić ten zestaw znaków w znaczniku <meta>, na przykład:

Przykład

<meta charset="ISO-8859-1">

Różnica między Unicode a UTF-8

Unicode to zestaw znaków. UTF-8 to kodowanie.

Unicode to lista znaków z unikalnymi liczbami dziesiętnymi (punktami kodowymi). A = 65, B = 66, C = 67, ...

Ta lista liczb dziesiętnych reprezentuje ciąg znaków "hello": 104 101 108 108 111

Kodowanie to sposób konwersji tych liczb na liczby binarne do przechowywania w komputerze:

Kodowanie UTF-8 będzie przechowywać "hello" w ten sposób (binarnie): 01101000 01100101 01101100 01101100 01101111

KodowanieKonwertuj liczby na binarne.Zestaw znakówKonwertuj znaki na liczby.

Kody znaków UTF-8 w HTML5

Poniższa tabela zawiera listę niektórych kodów znaków UTF-8 wspieranych przez HTML5:

Kod znaku Dziesiętna Szesnastkowa
Kontrola C0 i Podstawowy Latin 0-127 0000-007F
Kontrola C1 i Dodatek Latin-1 128-255 0080-00FF
Rozszerzona łacina - A 256-383 0100-017F
Rozszerzona łacina - B 384-591 0180-024F
Modyfikatory odległości 688-767 02B0-02FF
Znaki diakrytyczne 768-879 0300-036F
Greka i koptyjski 880-1023 0370-03FF
Podstawowa cyrylica 1024-1279 0400-04FF
Suplement cyrylicy 1280-1327 0500-052F
Ogólne znaki interpunkcyjne 8192-8303 2000-206F
Znaki walut 8352-8399 20A0-20CF
Znaki podobne do liter 8448-8527 2100-214F
Strzałki 8592-8703 2190-21FF
Operatory matematyczne 8704-8959 2200-22FF
Rysunki ramkowe 9472-9599 2500-257F
Elementy blokowe 9600-9631 2580-259F
Kształty geometryczne 9632-9727 25A0-25FF
Różnorodne znaki 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF