HTML Unicode (UTF-8) 參考手冊
Unicode 聯盟
Unicode 聯盟開發了 Unicode 標準。他們的目標是用其標準的 Unicode 轉換格式(UTF)替換現有的字符集。
Unicode 標準已經獲得成功,并通過 HTML、XML、Java、JavaScript、電子郵件、ASP、PHP 等得以實現。在許多操作系統和所有現代瀏覽器中,同樣支持 Unicode 標準。
Unicode 聯盟與領先的標準開發組織(例如 ISO、W3C 和 ECMA)開展合作。
Unicode 字符集
Unicode 可以通過不同的字符集實現。最常用的編碼是 UTF-8 和 UTF-16:
字符集 | 說明 |
---|---|
UTF-8 |
UTF8 中的字符長度可以是 1 到 4 個字節。 UTF-8 可以表示 Unicode 標準中的任何字符。 UTF-8 向后兼容 ASCII。 UTF-8 是電子郵件和網頁的首選編碼 |
UTF-16 |
16 位 Unicode 轉換格式是 Unicode 的可變長度字符編碼,能夠對整個 Unicode repertoire 進行編碼。 UTF-16 用于主要的操作系統和環境,例如 Microsoft Windows、Java 和 .NET。 |
注釋:Unicode 的前 128 個字符(與 ASCII 一一對應)使用單個八位字節編碼,這八位字節有與 ASCII 相同的二進制值,從而使有效的 ASCII 文本也成為有效的 UTF-8 編碼 Unicode。
提示:HTML 4 支持 UTF-8。 HTML 5 支持 UTF-8 和 UTF-16!
HTML5 標準:Unicode UTF-8
由于 ISO-8859 中的字符集大小受限制,并且不兼容多語言環境,因此 Unicode 聯盟開發了 Unicode 標準。
Unicode 標準(幾乎)涵蓋了世界上所有的字符、標點符號和符號。
Unicode 支持獨立于平臺和語言的文本處理、存儲和傳輸。
HTML5 中的默認字符編碼為 UTF-8。
如果 HTML5 網頁使用的字符集與 UTF-8 不同,則應在 <meta> 標記中指定該字符集,例如:
例子
<meta charset="ISO-8859-1">
Unicode 和 UTF-8 之間的區別
Unicode 是字符集。 UTF-8 是編碼。
Unicode 是有唯一的十進制數字(代碼點)的字符列表。 A = 65,B = 66,C = 67,...。
這個十進制數字列表表示字符串 "hello":104 101 108 108 111
編碼是將這些數字轉換為二進制數字以存儲在計算機中的方式:
UTF-8 編碼將像這樣(二進制)存儲 "hello":01101000 01100101 01101100 01101100 01101111
編碼將數字轉換為二進制。字符集將字符轉換為數字。
HTML5 UTF-8 字符代碼
下表是 HTML5 支持的一些 UTF-8 字符代碼的列表:
字符代碼 | 十進制 | 十六進制 |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |