HTML Unicode (UTF-8)-Referenzhandbuch

Unicode-Allianz

Die Unicode-Allianz hat den Unicode-Standard entwickelt. Ihr Ziel ist es, die bestehenden Zeichensätze durch das Standardspezifikation (UTF) ihrer Norm zu ersetzen.

Der Unicode-Standard hat Erfolg gefeiert und wurde durch HTML, XML, Java, JavaScript, E-Mail, ASP, PHP und andere realisiert. In vielen Betriebssystemen und in allen modernen Browsern wird der Unicode-Standard unterstützt.

Die Unicode-Allianz arbeitet mit führenden Standardentwicklungsgesellschaften (z.B. ISO, W3C und ECMA) zusammen.

Unicode-Zeichensatz

Unicode kann durch verschiedene Zeichensätze realisiert werden. Die gebräuchlichsten Kodierungen sind UTF-8 und UTF-16:

Zeichensatz Erklärung
UTF-8

Die Länge eines Zeichens in UTF-8 kann zwischen 1 und 4 Bytes liegen.

UTF-8 kann alle Zeichen des Unicode-Standards darstellen.

UTF-8 ist kompatibel mit ASCII. UTF-8 ist die bevorzugte Kodierung für E-Mails und Webseiten.

UTF-16

Das 16-Bit-Unicode-Transformationsformat ist ein variabler Längenzeichensatz von Unicode, der die gesamte Unicode-Repertoire kodieren kann.

UTF-16 wird in den Hauptbetriebssystemen und Umgebungen verwendet, z.B. Microsoft Windows, Java und .NET.

Kommentar:Die ersten 128 Zeichen von Unicode (die mit ASCII 1:1 korrespondieren) werden mit einem einzigen achteinhalbjährigen Byte kodiert, das die gleiche binäre Werte hat wie ASCII, so dass gültige ASCII-Texte auch gültige UTF-8-Kodierung Unicode darstellen.

Hinweis:HTML 4 unterstützt UTF-8. HTML 5 unterstützt UTF-8 und UTF-16!

HTML5-Standard: Unicode UTF-8

Da die Zeichensatzgröße in ISO-8859 begrenzt ist und nicht mit mehrsprachigen Umgebungen kompatibel ist, hat die Unicode-Allianz den Unicode-Standard entwickelt.

Der Unicode-Standard (fast) umfasst alle Zeichen, Punctuation und Symbole der Welt.

Unicode unterstützt die Textverarbeitung, -speicherung und -übertragung unabhängig von Plattform und Sprache.

Die Standardzeichensatzkodierung in HTML5 ist UTF-8.

Wenn die Zeichensatzkodierung der HTML5-Webseite von UTF-8 abweicht, sollte diese Zeichensatzkodierung im <meta>-Tag angegeben werden, z.B.:

Beispiel

<meta charset="ISO-8859-1">

Unterschied zwischen Unicode und UTF-8

Unicode ist ein Zeichensatz. UTF-8 ist eine Kodierung.

Unicode ist eine Liste von Zeichen mit einzigartigen Dezimalzahlen (Codepunkten). A = 65, B = 66, C = 67, ...

Diese Dezimalzahlliste stellt den String "hello" dar: 104 101 108 108 111

Kodierung ist die Methode, diese Zahlen in binäre Zahlen zu konvertieren, um sie im Computer zu speichern:

UTF-8 Kodierung speichert "hello" so (binär): 01101000 01100101 01101100 01101100 01101111

KodierungKonvertieren Sie die Zahl in einen Binary.ZeichensatzKonvertieren Sie das Zeichen in eine Zahl.

HTML5 UTF-8 Zeichenkodierung

Nachstehende Tabelle ist eine Liste einiger von HTML5 unterstützter UTF-8-Zeichenkodierungen:

Zeichenkodierung Zehnerzahl Sechzehnstellige Zahl
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Lateinische Erweiterung-A 256-383 0100-017F
Lateinische Erweiterung-B 384-591 0180-024F
Leerraummodifikatoren 688-767 02B0-02FF
Diacritische Zeichen 768-879 0300-036F
Griechisch und Koptisch 880-1023 0370-03FF
Kyrillische Grundlage 1024-1279 0400-04FF
Kyrillische Erweiterung 1280-1327 0500-052F
Allgemeine Interpunktion 8192-8303 2000-206F
Währungssymbole 8352-8399 20A0-20CF
Buchstabenähnliche Symbole 8448-8527 2100-214F
Pfeile 8592-8703 2190-21FF
Mathematische Operatoren 8704-8959 2200-22FF
Boxen-Zeichnungen 9472-9599 2500-257F
Bloeckelemente 9600-9631 2580-259F
Geometrische Formen 9632-9727 25A0-25FF
Verschiedene Symbole 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF