HTML Unicode (UTF-8) reference manual
- Forrige side HTML symboler
- Næste side Grundlæggende latinsk
Unicode-unionen
Unicode-unionen har udviklet Unicode-standarden. Deres mål er at erstatte eksisterende tegnkæder med deres standardiserede Unicode-transformation format (UTF).
Unicode-standarden har været succesfuld og er blevet implementeret gennem HTML, XML, Java, JavaScript, e-mail, ASP, PHP osv. Unicode-standarden understøttes af mange operativsystemer og alle moderne browsere.
Unicode-unionen samarbejder med førende standardudviklingsorganisationer (f.eks. ISO, W3C og ECMA).
Unicode tegnkæde
Unicode kan implementeres gennem forskellige tegnkæder. De mest almindelige koder er UTF-8 og UTF-16:
Telesystem | Bemærkninger |
---|---|
UTF-8 |
Længden på tegn i UTF-8 kan være mellem 1 og 4 byte. UTF-8 kan repræsentere alle tegn i Unicode-standarden. UTF-8 er bagudkompatibel med ASCII. UTF-8 er den foretrukne kodning til e-mail og websteder. |
UTF-16 |
16-bit Unicode-konverteringsformat er en variabel længde karakterkodning for Unicode, der kan kodere hele Unicode-repertoiret. UTF-16 bruges i de fleste operativsystemer og miljøer, såsom Microsoft Windows, Java og .NET. |
Kommentar:De første 128 tegn i Unicode (som korresponderer med ASCII) bruger en enkelt ottedels byte-kodning, hvilket gør de otte bits bytes værdier ens med ASCII, hvilket gør effektiv ASCII-tekst også til effektiv UTF-8-kodning af Unicode.
Vedligeholdelse:HTML 4 understøtter UTF-8. HTML 5 understøtter både UTF-8 og UTF-16!
HTML5-standard: Unicode UTF-8
Da tegnetsætets størrelse i ISO-8859 er begrænset og ikke kompatibel med flere sprogmiljøer, udviklede Unicode-unionen Unicode-standarden.
Unicode-standarden (næsten) dækker alle tegn, interpunktioner og symboler i verden.
Unicode understøtter tekstbehandling, lagring og overførsel, der er uafhængige af platform og sprog.
Standard tegnetsæt for HTML5 er UTF-8.
Hvis HTML5-webstedets tegnetsæt er forskelligt fra UTF-8, skal dette tegnetsæt specificeres i <meta>-markøren, f.eks.:
Eksempel
<meta charset="ISO-8859-1">
Forskellen mellem Unicode og UTF-8
Unicode er et telesystem. UTF-8 er en kodning.
Unicode er en liste over karakterer med unikke decimaltal (kodepunkter). A = 65, B = 66, C = 67, ...
Denne decimaltalsliste repræsenterer strengen "hello": 104 101 108 108 111
Kodning er en måde at konvertere disse tal til binære tal for at gemme dem i en computer:
UTF-8 kodning vil gemme "hello" sådan (binært): 01101000 01100101 01101100 01101100 01101111
KodningKonverter tal til binært.TelesystemKonverter karakterer til tal.
HTML5 UTF-8 karaktærkoder
Følgende tabel er en liste over nogle af de UTF-8 karaktærkoder, som HTML5 understøtter:
Karaktærkoder | Decimal | Heksadecimal |
---|---|---|
C0 Controls og Basic Latin | 0-127 | 0000-007F |
C1 Controls og Latin-1 Supplement | 128-255 | 0080-00FF |
Latin udvidet-A | 256-383 | 0100-017F |
Latin udvidet-B | 384-591 | 0180-024F |
Afstandejusteringsmodificerere | 688-767 | 02B0-02FF |
Diacritiske tegn | 768-879 | 0300-036F |
Gammelgræsk og koptisk | 880-1023 | 0370-03FF |
Kyrillisk grund | 1024-1279 | 0400-04FF |
Kyrillisk supplement | 1280-1327 | 0500-052F |
Generelle interpunktioner | 8192-8303 | 2000-206F |
Valutasymboler | 8352-8399 | 20A0-20CF |
Bogstaver-lignende symboler | 8448-8527 | 2100-214F |
Pile | 8592-8703 | 2190-21FF |
Matematiske operatører | 8704-8959 | 2200-22FF |
Boks tegninger | 9472-9599 | 2500-257F |
Blokkelementer | 9600-9631 | 2580-259F |
Geometriske former | 9632-9727 | 25A0-25FF |
Diverse symboler | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Forrige side HTML symboler
- Næste side Grundlæggende latinsk