HTML Unicode (UTF-8) 參考手冊

Unicode 聯盟

Unicode 聯盟開發了 Unicode 標準。他們的目標是用其標準的 Unicode 轉換格式(UTF)替換現有的字符集。

Unicode 標準已經獲得成功,并通過 HTML、XML、Java、JavaScript、電子郵件、ASP、PHP 等得以實現。在許多操作系統和所有現代瀏覽器中,同樣支持 Unicode 標準。

Unicode 聯盟與領先的標準開發組織(例如 ISO、W3C 和 ECMA)開展合作。

Unicode 字符集

Unicode 可以通過不同的字符集實現。最常用的編碼是 UTF-8 和 UTF-16:

字符集 說明
UTF-8

UTF8 中的字符長度可以是 1 到 4 個字節。

UTF-8 可以表示 Unicode 標準中的任何字符。

UTF-8 向后兼容 ASCII。 UTF-8 是電子郵件和網頁的首選編碼

UTF-16

16 位 Unicode 轉換格式是 Unicode 的可變長度字符編碼,能夠對整個 Unicode repertoire 進行編碼。

UTF-16 用于主要的操作系統和環境,例如 Microsoft Windows、Java 和 .NET。

注釋:Unicode 的前 128 個字符(與 ASCII 一一對應)使用單個八位字節編碼,這八位字節有與 ASCII 相同的二進制值,從而使有效的 ASCII 文本也成為有效的 UTF-8 編碼 Unicode。

提示:HTML 4 支持 UTF-8。 HTML 5 支持 UTF-8 和 UTF-16!

HTML5 標準:Unicode UTF-8

由于 ISO-8859 中的字符集大小受限制,并且不兼容多語言環境,因此 Unicode 聯盟開發了 Unicode 標準。

Unicode 標準(幾乎)涵蓋了世界上所有的字符、標點符號和符號。

Unicode 支持獨立于平臺和語言的文本處理、存儲和傳輸。

HTML5 中的默認字符編碼為 UTF-8。

如果 HTML5 網頁使用的字符集與 UTF-8 不同,則應在 <meta> 標記中指定該字符集,例如:

例子

<meta charset="ISO-8859-1">

Unicode 和 UTF-8 之間的區別

Unicode 是字符集。 UTF-8 是編碼。

Unicode 是有唯一的十進制數字(代碼點)的字符列表。 A = 65,B = 66,C = 67,...。

這個十進制數字列表表示字符串 "hello":104 101 108 108 111

編碼是將這些數字轉換為二進制數字以存儲在計算機中的方式:

UTF-8 編碼將像這樣(二進制)存儲 "hello":01101000 01100101 01101100 01101100 01101111

編碼將數字轉換為二進制。字符集將字符轉換為數字。

HTML5 UTF-8 字符代碼

下表是 HTML5 支持的一些 UTF-8 字符代碼的列表:

字符代碼 十進制 十六進制
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF