HTML Unicode (UTF-8) reference manual

Unicode-unionen

Unicode-unionen har udviklet Unicode-standarden. Deres mål er at erstatte eksisterende tegnkæder med deres standardiserede Unicode-transformation format (UTF).

Unicode-standarden har været succesfuld og er blevet implementeret gennem HTML, XML, Java, JavaScript, e-mail, ASP, PHP osv. Unicode-standarden understøttes af mange operativsystemer og alle moderne browsere.

Unicode-unionen samarbejder med førende standardudviklingsorganisationer (f.eks. ISO, W3C og ECMA).

Unicode tegnkæde

Unicode kan implementeres gennem forskellige tegnkæder. De mest almindelige koder er UTF-8 og UTF-16:

Telesystem Bemærkninger
UTF-8

Længden på tegn i UTF-8 kan være mellem 1 og 4 byte.

UTF-8 kan repræsentere alle tegn i Unicode-standarden.

UTF-8 er bagudkompatibel med ASCII. UTF-8 er den foretrukne kodning til e-mail og websteder.

UTF-16

16-bit Unicode-konverteringsformat er en variabel længde karakterkodning for Unicode, der kan kodere hele Unicode-repertoiret.

UTF-16 bruges i de fleste operativsystemer og miljøer, såsom Microsoft Windows, Java og .NET.

Kommentar:De første 128 tegn i Unicode (som korresponderer med ASCII) bruger en enkelt ottedels byte-kodning, hvilket gør de otte bits bytes værdier ens med ASCII, hvilket gør effektiv ASCII-tekst også til effektiv UTF-8-kodning af Unicode.

Vedligeholdelse:HTML 4 understøtter UTF-8. HTML 5 understøtter både UTF-8 og UTF-16!

HTML5-standard: Unicode UTF-8

Da tegnetsætets størrelse i ISO-8859 er begrænset og ikke kompatibel med flere sprogmiljøer, udviklede Unicode-unionen Unicode-standarden.

Unicode-standarden (næsten) dækker alle tegn, interpunktioner og symboler i verden.

Unicode understøtter tekstbehandling, lagring og overførsel, der er uafhængige af platform og sprog.

Standard tegnetsæt for HTML5 er UTF-8.

Hvis HTML5-webstedets tegnetsæt er forskelligt fra UTF-8, skal dette tegnetsæt specificeres i <meta>-markøren, f.eks.:

Eksempel

<meta charset="ISO-8859-1">

Forskellen mellem Unicode og UTF-8

Unicode er et telesystem. UTF-8 er en kodning.

Unicode er en liste over karakterer med unikke decimaltal (kodepunkter). A = 65, B = 66, C = 67, ...

Denne decimaltalsliste repræsenterer strengen "hello": 104 101 108 108 111

Kodning er en måde at konvertere disse tal til binære tal for at gemme dem i en computer:

UTF-8 kodning vil gemme "hello" sådan (binært): 01101000 01100101 01101100 01101100 01101111

KodningKonverter tal til binært.TelesystemKonverter karakterer til tal.

HTML5 UTF-8 karaktærkoder

Følgende tabel er en liste over nogle af de UTF-8 karaktærkoder, som HTML5 understøtter:

Karaktærkoder Decimal Heksadecimal
C0 Controls og Basic Latin 0-127 0000-007F
C1 Controls og Latin-1 Supplement 128-255 0080-00FF
Latin udvidet-A 256-383 0100-017F
Latin udvidet-B 384-591 0180-024F
Afstandejusteringsmodificerere 688-767 02B0-02FF
Diacritiske tegn 768-879 0300-036F
Gammelgræsk og koptisk 880-1023 0370-03FF
Kyrillisk grund 1024-1279 0400-04FF
Kyrillisk supplement 1280-1327 0500-052F
Generelle interpunktioner 8192-8303 2000-206F
Valutasymboler 8352-8399 20A0-20CF
Bogstaver-lignende symboler 8448-8527 2100-214F
Pile 8592-8703 2190-21FF
Matematiske operatører 8704-8959 2200-22FF
Boks tegninger 9472-9599 2500-257F
Blokkelementer 9600-9631 2580-259F
Geometriske former 9632-9727 25A0-25FF
Diverse symboler 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF