HTML Unicode (UTF-8)-Referenzhandbuch
- Vorherige Seite HTML-Symbole
- Nächste Seite Lateinische Grundlagen
Unicode-Allianz
Die Unicode-Allianz hat den Unicode-Standard entwickelt. Ihr Ziel ist es, die bestehenden Zeichensätze durch das Standardspezifikation (UTF) ihrer Norm zu ersetzen.
Der Unicode-Standard hat Erfolg gefeiert und wurde durch HTML, XML, Java, JavaScript, E-Mail, ASP, PHP und andere realisiert. In vielen Betriebssystemen und in allen modernen Browsern wird der Unicode-Standard unterstützt.
Die Unicode-Allianz arbeitet mit führenden Standardentwicklungsgesellschaften (z.B. ISO, W3C und ECMA) zusammen.
Unicode-Zeichensatz
Unicode kann durch verschiedene Zeichensätze realisiert werden. Die gebräuchlichsten Kodierungen sind UTF-8 und UTF-16:
Zeichensatz | Erklärung |
---|---|
UTF-8 |
Die Länge eines Zeichens in UTF-8 kann zwischen 1 und 4 Bytes liegen. UTF-8 kann alle Zeichen des Unicode-Standards darstellen. UTF-8 ist kompatibel mit ASCII. UTF-8 ist die bevorzugte Kodierung für E-Mails und Webseiten. |
UTF-16 |
Das 16-Bit-Unicode-Transformationsformat ist ein variabler Längenzeichensatz von Unicode, der die gesamte Unicode-Repertoire kodieren kann. UTF-16 wird in den Hauptbetriebssystemen und Umgebungen verwendet, z.B. Microsoft Windows, Java und .NET. |
Kommentar:Die ersten 128 Zeichen von Unicode (die mit ASCII 1:1 korrespondieren) werden mit einem einzigen achteinhalbjährigen Byte kodiert, das die gleiche binäre Werte hat wie ASCII, so dass gültige ASCII-Texte auch gültige UTF-8-Kodierung Unicode darstellen.
Hinweis:HTML 4 unterstützt UTF-8. HTML 5 unterstützt UTF-8 und UTF-16!
HTML5-Standard: Unicode UTF-8
Da die Zeichensatzgröße in ISO-8859 begrenzt ist und nicht mit mehrsprachigen Umgebungen kompatibel ist, hat die Unicode-Allianz den Unicode-Standard entwickelt.
Der Unicode-Standard (fast) umfasst alle Zeichen, Punctuation und Symbole der Welt.
Unicode unterstützt die Textverarbeitung, -speicherung und -übertragung unabhängig von Plattform und Sprache.
Die Standardzeichensatzkodierung in HTML5 ist UTF-8.
Wenn die Zeichensatzkodierung der HTML5-Webseite von UTF-8 abweicht, sollte diese Zeichensatzkodierung im <meta>-Tag angegeben werden, z.B.:
Beispiel
<meta charset="ISO-8859-1">
Unterschied zwischen Unicode und UTF-8
Unicode ist ein Zeichensatz. UTF-8 ist eine Kodierung.
Unicode ist eine Liste von Zeichen mit einzigartigen Dezimalzahlen (Codepunkten). A = 65, B = 66, C = 67, ...
Diese Dezimalzahlliste stellt den String "hello" dar: 104 101 108 108 111
Kodierung ist die Methode, diese Zahlen in binäre Zahlen zu konvertieren, um sie im Computer zu speichern:
UTF-8 Kodierung speichert "hello" so (binär): 01101000 01100101 01101100 01101100 01101111
KodierungKonvertieren Sie die Zahl in einen Binary.ZeichensatzKonvertieren Sie das Zeichen in eine Zahl.
HTML5 UTF-8 Zeichenkodierung
Nachstehende Tabelle ist eine Liste einiger von HTML5 unterstützter UTF-8-Zeichenkodierungen:
Zeichenkodierung | Zehnerzahl | Sechzehnstellige Zahl |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Lateinische Erweiterung-A | 256-383 | 0100-017F |
Lateinische Erweiterung-B | 384-591 | 0180-024F |
Leerraummodifikatoren | 688-767 | 02B0-02FF |
Diacritische Zeichen | 768-879 | 0300-036F |
Griechisch und Koptisch | 880-1023 | 0370-03FF |
Kyrillische Grundlage | 1024-1279 | 0400-04FF |
Kyrillische Erweiterung | 1280-1327 | 0500-052F |
Allgemeine Interpunktion | 8192-8303 | 2000-206F |
Währungssymbole | 8352-8399 | 20A0-20CF |
Buchstabenähnliche Symbole | 8448-8527 | 2100-214F |
Pfeile | 8592-8703 | 2190-21FF |
Mathematische Operatoren | 8704-8959 | 2200-22FF |
Boxen-Zeichnungen | 9472-9599 | 2500-257F |
Bloeckelemente | 9600-9631 | 2580-259F |
Geometrische Formen | 9632-9727 | 25A0-25FF |
Verschiedene Symbole | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Vorherige Seite HTML-Symbole
- Nächste Seite Lateinische Grundlagen