HTML Unicode (UTF-8) reference håndbog

Unicode-alliancen

Unicode-alliancen har udviklet Unicode-standarden. Deres mål er at erstatte eksisterende tegnkæder med deres standardiserede Unicode-transformation format (UTF).

Unicode-standarden har været succesfuld og er blevet implementeret gennem HTML, XML, Java, JavaScript, e-mail, ASP, PHP osv. Unicode-standarden understøttes i mange operativsystemer og alle moderne browsere.

Unicode-alliancen samarbejder med førende standardudviklingsorganisationer (f.eks. ISO, W3C og ECMA).

Unicode tegnkæde

Unicode kan implementeres gennem forskellige tegnkæder. De mest almindelige kodninger er UTF-8 og UTF-16:

Teleskrift Beskrivelse
UTF-8

Længden af tegn i UTF-8 kan være mellem 1 og 4 byte.

UTF-8 kan repræsentere alle tegn i Unicode-standarden.

UTF-8 er kompatibel med ASCII. UTF-8 er den foretrukne kodning for e-mail og websider.

UTF-16

16-bit Unicode-konverteringsformat er en variabel længde karakterkodning for Unicode, der kan kodere hele Unicode-repertoire.

UTF-16 bruges i de fleste operativsystemer og miljøer, såsom Microsoft Windows, Java og .NET.

Kommentar:De første 128 tegn i Unicode (som matcher ASCII) bruger en enkelt ottebit byte-kodning, hvilket gør de ottebit byte-værdier ens med ASCIIs binære værdier, hvilket gør effektiv ASCII-tekst også til effektiv UTF-8-kodning Unicode.

Vedligeholdelse:HTML 4 understøtter UTF-8. HTML 5 understøtter UTF-8 og UTF-16!

HTML5-standard: Unicode UTF-8

Da tegnkodes størrelse i ISO-8859 er begrænset og ikke kompatibel med flere sprogmiljøer, udviklede Unicode-alliancen Unicode-standarden.

Unicode-standarden (næsten) dækker alle tegn, tegnsæt og symboler i verden.

Unicode understøtter tekstbehandling, lagring og overførsel, der er uafhængig af platform og sprog.

HTML5s standard tegnkode er UTF-8.

Hvis HTML5-webstedets tegnkode er forskellig fra UTF-8, skal denne tegnkode angives i <meta>-markøren, f.eks.:

Eksempel

<meta charset="ISO-8859-1">

Forskellen mellem Unicode og UTF-8

Unicode er en tegnkode. UTF-8 er en kodning.

Unicode er en liste over tegn med unikke tal (kodepunkter). A = 65, B = 66, C = 67, ...。

Denne tal liste repræsenterer strengen "hello": 104 101 108 108 111

Kodning er en måde at konvertere disse tal til binære tal for at gemme dem i en computer:

UTF-8 kodning gemmer "hello" sådan (binær): 01101000 01100101 01101100 01101100 01101111

KodningKonverter tal til binær.TeleskriftKonverter karakterer til tal.

HTML5 UTF-8 karakterkoder

Følgende tabel er en liste over nogle af de UTF-8 karakterkoder, som HTML5 understøtter:

Karakterkode Tallover Heksadecimal
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin udvidet-A 256-383 0100-017F
Latin udvidet-B 384-591 0180-024F
Mellemrum justeringer 688-767 02B0-02FF
Diacritiske tegn 768-879 0300-036F
Græsk og koptisk 880-1023 0370-03FF
Kyrillisk grundlæggende 1024-1279 0400-04FF
Kyrillisk supplerende 1280-1327 0500-052F
Generel interpunktion 8192-8303 2000-206F
Valutasymboler 8352-8399 20A0-20CF
Bogstavelige symboler 8448-8527 2100-214F
Pile 8592-8703 2190-21FF
Matematik operatører 8704-8959 2200-22FF
Boks tegninger 9472-9599 2500-257F
Blok elementer 9600-9631 2580-259F
Geometriske former 9632-9727 25A0-25FF
Diverse symboler 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF