HTML Unicode (UTF-8) リファレンスマニュアル

Unicode 聯盟

Unicode 聯盟は Unicode 标準を開発しました。彼らの目標は、標準の Unicode 转換形式(UTF)を使用して現在の文字セットを置き換えることです。

Unicode 标準は成功を収め、HTML、XML、Java、JavaScript、メール、ASP、PHPなどで実装されています。多くのオペレーティングシステムとすべての現代のブラウザで Unicode 标準がサポートされています。

Unicode 聯盟は、ISO、W3C、ECMAなどの主要な標準開発組織と協力して活動しています。

Unicode 文字セット

Unicode は異なる文字セットで実現できます。最も一般的なエンコーディングは UTF-8 と UTF-16 です:

文字集合 説明
UTF-8

UTF8 の文字の長さは 1 から 4 バイトまでです。

UTF-8 は Unicode 标準のすべての文字を表現できます。

UTF-8 は ASCII に後方互換性があります。UTF-8 はメールやウェブページの推奨エンコーディングです。

UTF-16

16ビットUnicode変換形式は、Unicodeの可変長文字エンコードであり、Unicodeの全キャラクタセットをエンコードできます。

UTF-16は、Microsoft Windows、Java、.NETなどの主要なオペレーティングシステムと環境で使用されます。

注釈:Unicodeの最初の128個の文字(ASCIIと一一対応)は、単一の8ビットバイトエンコードを使用し、これらの8ビットバイトはASCIIと同じ二進数値を持つため、有効なASCIIテキストも有効なUTF-8エンコードのUnicodeとみなされます。

ヒント:HTML 4はUTF-8をサポートします。HTML 5はUTF-8とUTF-16をサポートします!

HTML5標準:Unicode UTF-8

ISO-8859の文字集合のサイズが制限されており、多言語環境に非対応であるため、Unicode同盟がUnicode標準を開発しました。

Unicode標準(ほぼ)世界のすべての文字、記号、シンボルをカバーしています。

Unicodeは、プラットフォームや言語に関係なくテキストの処理、保存、伝送をサポートします。

HTML5のデフォルトの文字エンコードはUTF-8です。

HTML5ウェブページが使用する文字集合がUTF-8でない場合、<meta>タグでその文字集合を指定する必要があります。例えば:

<meta charset="ISO-8859-1">

UnicodeとUTF-8の違い

Unicodeは文字集合です。UTF-8はエンコードです。

Unicodeは、ユニークな十進数(コードポイント)を持つ文字の一覧です。A = 65、B = 66、C = 67、...。

この十進数のリストは、文字列「hello」を表します:104 101 108 108 111

エンコードとは、これらの数値を二進数に変換してコンピュータ内に保存する方法です:

UTF-8 エンコードは「hello」を以下のように(二進数)保存します:01101000 01100101 01101100 01101100 01101111

エンコード数値を二進数に変換します。文字集合文字を数値に変換します。

HTML5 UTF-8 文字コード

以下の表は、HTML5がサポートしているいくつかのUTF-8文字コードの一覧です:

文字コード 十進数 十六進数
C0 コントロールおよび基本的なラテン 0-127 0000-007F
C1 コントロールおよびラテン-1 サプリメント 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF