HTML Unicode (UTF-8)-Referenzhandbuch

Vorherige Seite HTML-Symbole
Nächste Seite Lateinische Grundlagen

Unicode-Allianz

Die Unicode-Allianz hat den Unicode-Standard entwickelt. Ihr Ziel ist es, die bestehenden Zeichensätze durch das Standardspezifikation (UTF) ihrer Norm zu ersetzen.

Der Unicode-Standard hat Erfolg gefeiert und wurde durch HTML, XML, Java, JavaScript, E-Mail, ASP, PHP und andere realisiert. In vielen Betriebssystemen und in allen modernen Browsern wird der Unicode-Standard unterstützt.

Die Unicode-Allianz arbeitet mit führenden Standardentwicklungsgesellschaften (z.B. ISO, W3C und ECMA) zusammen.

Unicode-Zeichensatz

Unicode kann durch verschiedene Zeichensätze realisiert werden. Die gebräuchlichsten Kodierungen sind UTF-8 und UTF-16:

Zeichensatz	Erklärung
UTF-8	Die Länge eines Zeichens in UTF-8 kann zwischen 1 und 4 Bytes liegen. UTF-8 kann alle Zeichen des Unicode-Standards darstellen. UTF-8 ist kompatibel mit ASCII. UTF-8 ist die bevorzugte Kodierung für E-Mails und Webseiten.
UTF-16	Das 16-Bit-Unicode-Transformationsformat ist ein variabler Längenzeichensatz von Unicode, der die gesamte Unicode-Repertoire kodieren kann. UTF-16 wird in den Hauptbetriebssystemen und Umgebungen verwendet, z.B. Microsoft Windows, Java und .NET.

Zeichensatz

Erklärung

UTF-8

Die Länge eines Zeichens in UTF-8 kann zwischen 1 und 4 Bytes liegen.

UTF-8 kann alle Zeichen des Unicode-Standards darstellen.

UTF-8 ist kompatibel mit ASCII. UTF-8 ist die bevorzugte Kodierung für E-Mails und Webseiten.

UTF-16

Das 16-Bit-Unicode-Transformationsformat ist ein variabler Längenzeichensatz von Unicode, der die gesamte Unicode-Repertoire kodieren kann.

UTF-16 wird in den Hauptbetriebssystemen und Umgebungen verwendet, z.B. Microsoft Windows, Java und .NET.

Kommentar:Die ersten 128 Zeichen von Unicode (die mit ASCII 1:1 korrespondieren) werden mit einem einzigen achteinhalbjährigen Byte kodiert, das die gleiche binäre Werte hat wie ASCII, so dass gültige ASCII-Texte auch gültige UTF-8-Kodierung Unicode darstellen.

Hinweis:HTML 4 unterstützt UTF-8. HTML 5 unterstützt UTF-8 und UTF-16!

HTML5-Standard: Unicode UTF-8

Da die Zeichensatzgröße in ISO-8859 begrenzt ist und nicht mit mehrsprachigen Umgebungen kompatibel ist, hat die Unicode-Allianz den Unicode-Standard entwickelt.

Der Unicode-Standard (fast) umfasst alle Zeichen, Punctuation und Symbole der Welt.

Unicode unterstützt die Textverarbeitung, -speicherung und -übertragung unabhängig von Plattform und Sprache.

Die Standardzeichensatzkodierung in HTML5 ist UTF-8.

Wenn die Zeichensatzkodierung der HTML5-Webseite von UTF-8 abweicht, sollte diese Zeichensatzkodierung im <meta>-Tag angegeben werden, z.B.:

Beispiel

<meta charset="ISO-8859-1">

Unterschied zwischen Unicode und UTF-8

Unicode ist ein Zeichensatz. UTF-8 ist eine Kodierung.

Unicode ist eine Liste von Zeichen mit einzigartigen Dezimalzahlen (Codepunkten). A = 65, B = 66, C = 67, ...

Diese Dezimalzahlliste stellt den String "hello" dar: 104 101 108 108 111

Kodierung ist die Methode, diese Zahlen in binäre Zahlen zu konvertieren, um sie im Computer zu speichern:

UTF-8 Kodierung speichert "hello" so (binär): 01101000 01100101 01101100 01101100 01101111

KodierungKonvertieren Sie die Zahl in einen Binary.ZeichensatzKonvertieren Sie das Zeichen in eine Zahl.

HTML5 UTF-8 Zeichenkodierung

Nachstehende Tabelle ist eine Liste einiger von HTML5 unterstützter UTF-8-Zeichenkodierungen:

Zeichenkodierung	Zehnerzahl	Sechzehnstellige Zahl
C0 Controls and Basic Latin	0-127	0000-007F
C1 Controls and Latin-1 Supplement	128-255	0080-00FF
Lateinische Erweiterung-A	256-383	0100-017F
Lateinische Erweiterung-B	384-591	0180-024F
Leerraummodifikatoren	688-767	02B0-02FF
Diacritische Zeichen	768-879	0300-036F
Griechisch und Koptisch	880-1023	0370-03FF
Kyrillische Grundlage	1024-1279	0400-04FF
Kyrillische Erweiterung	1280-1327	0500-052F
Allgemeine Interpunktion	8192-8303	2000-206F
Währungssymbole	8352-8399	20A0-20CF
Buchstabenähnliche Symbole	8448-8527	2100-214F
Pfeile	8592-8703	2190-21FF
Mathematische Operatoren	8704-8959	2200-22FF
Boxen-Zeichnungen	9472-9599	2500-257F
Bloeckelemente	9600-9631	2580-259F
Geometrische Formen	9632-9727	25A0-25FF
Verschiedene Symbole	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

Vorherige Seite HTML-Symbole
Nächste Seite Lateinische Grundlagen

Kursplan

HTML-Zeichensätze

HTML UTF-8

HTML-Symbole

HTML-Entity

Wahlpflichtkurs

Kursempfehlung:

HTML Unicode (UTF-8)-Referenzhandbuch

Unicode-Allianz

Unicode-Zeichensatz

HTML5-Standard: Unicode UTF-8

Beispiel

Unterschied zwischen Unicode und UTF-8

HTML5 UTF-8 Zeichenkodierung

Werkzeugkasten

CSS Referenzhandbuch

CSS Beispiele

CSS Quiz

CSS课外读物

Sponsorenlinks