HTML Unicode (UTF-8) reference håndbog
- Forrige side HTML symboler
- Næste side Basis i det latinske sprog
Unicode-alliancen
Unicode-alliancen har udviklet Unicode-standarden. Deres mål er at erstatte eksisterende tegnkæder med deres standardiserede Unicode-transformation format (UTF).
Unicode-standarden har været succesfuld og er blevet implementeret gennem HTML, XML, Java, JavaScript, e-mail, ASP, PHP osv. Unicode-standarden understøttes i mange operativsystemer og alle moderne browsere.
Unicode-alliancen samarbejder med førende standardudviklingsorganisationer (f.eks. ISO, W3C og ECMA).
Unicode tegnkæde
Unicode kan implementeres gennem forskellige tegnkæder. De mest almindelige kodninger er UTF-8 og UTF-16:
Teleskrift | Beskrivelse |
---|---|
UTF-8 |
Længden af tegn i UTF-8 kan være mellem 1 og 4 byte. UTF-8 kan repræsentere alle tegn i Unicode-standarden. UTF-8 er kompatibel med ASCII. UTF-8 er den foretrukne kodning for e-mail og websider. |
UTF-16 |
16-bit Unicode-konverteringsformat er en variabel længde karakterkodning for Unicode, der kan kodere hele Unicode-repertoire. UTF-16 bruges i de fleste operativsystemer og miljøer, såsom Microsoft Windows, Java og .NET. |
Kommentar:De første 128 tegn i Unicode (som matcher ASCII) bruger en enkelt ottebit byte-kodning, hvilket gør de ottebit byte-værdier ens med ASCIIs binære værdier, hvilket gør effektiv ASCII-tekst også til effektiv UTF-8-kodning Unicode.
Vedligeholdelse:HTML 4 understøtter UTF-8. HTML 5 understøtter UTF-8 og UTF-16!
HTML5-standard: Unicode UTF-8
Da tegnkodes størrelse i ISO-8859 er begrænset og ikke kompatibel med flere sprogmiljøer, udviklede Unicode-alliancen Unicode-standarden.
Unicode-standarden (næsten) dækker alle tegn, tegnsæt og symboler i verden.
Unicode understøtter tekstbehandling, lagring og overførsel, der er uafhængig af platform og sprog.
HTML5s standard tegnkode er UTF-8.
Hvis HTML5-webstedets tegnkode er forskellig fra UTF-8, skal denne tegnkode angives i <meta>-markøren, f.eks.:
Eksempel
<meta charset="ISO-8859-1">
Forskellen mellem Unicode og UTF-8
Unicode er en tegnkode. UTF-8 er en kodning.
Unicode er en liste over tegn med unikke tal (kodepunkter). A = 65, B = 66, C = 67, ...。
Denne tal liste repræsenterer strengen "hello": 104 101 108 108 111
Kodning er en måde at konvertere disse tal til binære tal for at gemme dem i en computer:
UTF-8 kodning gemmer "hello" sådan (binær): 01101000 01100101 01101100 01101100 01101111
KodningKonverter tal til binær.TeleskriftKonverter karakterer til tal.
HTML5 UTF-8 karakterkoder
Følgende tabel er en liste over nogle af de UTF-8 karakterkoder, som HTML5 understøtter:
Karakterkode | Tallover | Heksadecimal |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin udvidet-A | 256-383 | 0100-017F |
Latin udvidet-B | 384-591 | 0180-024F |
Mellemrum justeringer | 688-767 | 02B0-02FF |
Diacritiske tegn | 768-879 | 0300-036F |
Græsk og koptisk | 880-1023 | 0370-03FF |
Kyrillisk grundlæggende | 1024-1279 | 0400-04FF |
Kyrillisk supplerende | 1280-1327 | 0500-052F |
Generel interpunktion | 8192-8303 | 2000-206F |
Valutasymboler | 8352-8399 | 20A0-20CF |
Bogstavelige symboler | 8448-8527 | 2100-214F |
Pile | 8592-8703 | 2190-21FF |
Matematik operatører | 8704-8959 | 2200-22FF |
Boks tegninger | 9472-9599 | 2500-257F |
Blok elementer | 9600-9631 | 2580-259F |
Geometriske former | 9632-9727 | 25A0-25FF |
Diverse symboler | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Forrige side HTML symboler
- Næste side Basis i det latinske sprog