HTML Unicode (UTF-8) リファレンスマニュアル
Unicode 協会
Unicode 協会は Unicode 标準を開発しました。彼らの目標は、既存の文字セットを標準の Unicode 転換形式(UTF)で置き換えることです。
Unicode 标準は成功を収め、HTML、XML、Java、JavaScript、メール、ASP、PHPなどで実現されています。多くのオペレーティングシステムおよびすべての現代のブラウザで Unicode 标準がサポートされています。
Unicode 協会は、ISO、W3C、ECMAなどの主要な標準開発組織と協力して事業を展開しています。
Unicode 文字セット
Unicode は異なる文字セットで実現できます。最も一般的なエンコーディングは UTF-8 と UTF-16 です:
文字セット | 説明 |
---|---|
UTF-8 |
UTF8 の文字の長さは 1 から 4 バイトです。 UTF-8 は Unicode 标準のすべての文字を表現できます。 UTF-8 は ASCII に後方互換性があります。UTF-8 はメールやウェブページの推奨エンコーディングです。 |
UTF-16 |
16ビットUnicode変換形式は、Unicodeの可変長文字エンコードであり、Unicodeのすべてのrepertoireをエンコードできます。 UTF-16は、Microsoft Windows、Java、.NETなどの主要なオペレーティングシステムと環境で使用されます。 |
注釈:Unicodeの最初の128個の文字(ASCIIと一一対応)は、単一の8ビットバイトでエンコードされ、これらの8ビットバイトはASCIIと同じ2進数値を持っています。これにより、有効なASCIIテキストも有効なUTF-8エンコードのUnicodeとして認識されます。
ヒント:HTML 4はUTF-8をサポートします。HTML 5はUTF-8とUTF-16をサポートします!
HTML5標準:Unicode UTF-8
ISO-8859の文字セットのサイズが制限されており、多言語環境に非対応であるため、Unicode連合はUnicode標準を開発しました。
Unicode標準(ほぼ)世界中のすべての文字、記号、シンボルをカバーしています。
Unicodeは、プラットフォームや言語に関係なくテキストの処理、保存、送信をサポートします。
HTML5のデフォルトの文字エンコードはUTF-8です。
HTML5ウェブページが使用する文字セットがUTF-8でない場合、<meta>タグでその文字セットを指定する必要があります。例えば:
例
<meta charset="ISO-8859-1">
UnicodeとUTF-8の違い
Unicodeは文字セットです。UTF-8はエンコードです。
Unicodeは、ユニークな10進数(コードポイント)を持つ文字のリストです。A = 65、B = 66、C = 67、...。
この10進数のリストは、文字列「hello」を表します:104 101 108 108 111
エンコードとは、これらの数値を2進数に変換してコンピュータ内に保存する方法です:
UTF-8 エンコードは以下のように(2進数)「hello」を保存します:01101000 01100101 01101100 01101100 01101111
エンコード数値を2進数に変換します。文字セット文字を数値に変換します。
HTML5 UTF-8 文字コード
以下の表は、HTML5がサポートしているいくつかのUTF-8文字コードのリストです:
文字コード | 10進数 | 16進数 |
---|---|---|
C0 コントロールおよび基本的なラテン | 0-127 | 0000-007F |
C1 コントロールおよびラテン-1 サプリメント | 128-255 | 0080-00FF |
ラテン拡張-A | 256-383 | 0100-017F |
ラテン拡張-B | 384-591 | 0180-024F |
スペーサーモディファイア | 688-767 | 02B0-02FF |
アクセント記号 | 768-879 | 0300-036F |
ギリシャ文字とコプト文字 | 880-1023 | 0370-03FF |
キリル文字の基本 | 1024-1279 | 0400-04FF |
キリル文字の追加 | 1280-1327 | 0500-052F |
一般的な記号 | 8192-8303 | 2000-206F |
通貨シンボル | 8352-8399 | 20A0-20CF |
文字風シンボル | 8448-8527 | 2100-214F |
矢印 | 8592-8703 | 2190-21FF |
数学的演算子 | 8704-8959 | 2200-22FF |
ボックス描画 | 9472-9599 | 2500-257F |
ブロック要素 | 9600-9631 | 2580-259F |
幾何形状 | 9632-9727 | 25A0-25FF |
雑多なシンボル | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |