Podręcznik referencyjny Unicode (UTF-8) HTML
- Poprzednia strona Znaków HTML
- Następna strona Podstawy łaciny
Związek Unicode
Związek Unicode opracował standard Unicode. Ich celem jest zastąpienie istniejących zestawów znaków standardem Unicode转换格式 (UTF).
Standard Unicode odniósł sukces i został zaimplementowany przez HTML, XML, Java, JavaScript, e-mail, ASP, PHP itp. W wielu systemach operacyjnych i we wszystkich nowoczesnych przeglądarkach wspierany jest standard Unicode.
Związek Unicode współpracuje z czołowymi organizacjami zajmującymi się rozwojem standardów (np. ISO, W3C i ECMA).
Zestawy znaków Unicode
Unicode może być realizowany przez różne zestawy znaków. Najczęściej używanymi kodowaniami są UTF-8 i UTF-16:
Zestaw znaków | Wyjaśnienie |
---|---|
UTF-8 |
Długość znaku w UTF-8 może wynosić od 1 do 4 bajtów. UTF-8 może reprezentować każdy znak z standardu Unicode. UTF-8 jest kompatybilny z ASCII. UTF-8 jest preferowanym kodowaniem dla e-maili i stron internetowych |
UTF-16 |
Format konwersji Unicode 16-bitowy to zmiennogłębokie kodowanie znaków Unicode, które może kodować całe zbiór Unicode. UTF-16 jest używany w głównych systemach operacyjnych i środowiskach, takich jak Microsoft Windows, Java i .NET. |
Komentarz:Pierwsze 128 znaków Unicode (pasujące do ASCII) są kodowane jednym ośmiobitowym bajtem, który ma takie same wartości binarne jak ASCII, co czyni z niego efektywne teksty ASCII również efektywnym kodowaniem UTF-8 Unicode.
Wskazówka:HTML 4 obsługuje UTF-8. HTML 5 obsługuje UTF-8 i UTF-16!
Standard HTML5: Unicode UTF-8
Ze względu na ograniczoną wielkość zestawu znaków w ISO-8859 oraz brak zgodności z wielojęzykowymi środowiskami, Związek Unicode opracował standard Unicode.
Standard Unicode (prawie) obejmuje wszystkie znaki, znaki przestankowe i symbole na świecie.
Unicode wspiera przetwarzanie, przechowywanie i przesyłanie tekstu niezależnie od platformy i języka.
Domyślnym kodowaniem znaków w HTML5 jest UTF-8.
Jeśli strona internetowa HTML5 używa zestawu znaków innego niż UTF-8, należy określić ten zestaw znaków w znaczniku <meta>, na przykład:
Przykład
<meta charset="ISO-8859-1">
Różnica między Unicode a UTF-8
Unicode to zestaw znaków. UTF-8 to kodowanie.
Unicode to lista znaków z unikalnymi liczbami dziesiętnymi (punktami kodowymi). A = 65, B = 66, C = 67, ...
Ta lista liczb dziesiętnych reprezentuje ciąg znaków "hello": 104 101 108 108 111
Kodowanie to sposób konwersji tych liczb na liczby binarne do przechowywania w komputerze:
Kodowanie UTF-8 będzie przechowywać "hello" w ten sposób (binarnie): 01101000 01100101 01101100 01101100 01101111
KodowanieKonwertuj liczby na binarne.Zestaw znakówKonwertuj znaki na liczby.
Kody znaków UTF-8 w HTML5
Poniższa tabela zawiera listę niektórych kodów znaków UTF-8 wspieranych przez HTML5:
Kod znaku | Dziesiętna | Szesnastkowa |
---|---|---|
Kontrola C0 i Podstawowy Latin | 0-127 | 0000-007F |
Kontrola C1 i Dodatek Latin-1 | 128-255 | 0080-00FF |
Rozszerzona łacina - A | 256-383 | 0100-017F |
Rozszerzona łacina - B | 384-591 | 0180-024F |
Modyfikatory odległości | 688-767 | 02B0-02FF |
Znaki diakrytyczne | 768-879 | 0300-036F |
Greka i koptyjski | 880-1023 | 0370-03FF |
Podstawowa cyrylica | 1024-1279 | 0400-04FF |
Suplement cyrylicy | 1280-1327 | 0500-052F |
Ogólne znaki interpunkcyjne | 8192-8303 | 2000-206F |
Znaki walut | 8352-8399 | 20A0-20CF |
Znaki podobne do liter | 8448-8527 | 2100-214F |
Strzałki | 8592-8703 | 2190-21FF |
Operatory matematyczne | 8704-8959 | 2200-22FF |
Rysunki ramkowe | 9472-9599 | 2500-257F |
Elementy blokowe | 9600-9631 | 2580-259F |
Kształty geometryczne | 9632-9727 | 25A0-25FF |
Różnorodne znaki | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Poprzednia strona Znaków HTML
- Następna strona Podstawy łaciny