HTML Unicode (UTF-8) viitteellinen opas
- Edellinen sivu HTML symbolit
- Seuraava sivu Latinalaisen kirjaimiston perusteet
Unicode-unioni
Unicode-unioni on kehittänyt Unicode-standardia. Tavoitteenaan on korvata nykyiset merkkikokoelmat Unicode-standardin mukaisella Unicode-muunnosmuodolla (UTF).
Unicode-standardi on ollut menestyksekäs ja se on toteutettu HTML:n, XML:n, Java:n, JavaScriptin, sähköpostin, ASP:n, PHP:n kautta. Monissa käyttöjärjestelmissä ja kaikissa nykyaikaisissa selaimissa tuetaan Unicode-standardia.
Unicode-unioni tekee yhteistyötä johtavien standardien kehitysorganisaatioiden kanssa (esim. ISO, W3C ja ECMA).
Unicode-merkkikokoelma
Unicode voidaan toteuttaa eri merkkikokoelmilla. Yleisimpiä koodauksia ovat UTF-8 ja UTF-16:
字符集 | Selitys |
---|---|
UTF-8 |
UTF8-merkkien pituus voi olla 1-4 tietokirjainta. UTF-8 voi esittää Unicode-standardin kaikki merkit. UTF-8 on taustalla ASCII. UTF-8 on sähköpostin ja verkkosivujen suosituin koodaus. |
UTF-16 |
16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。 UTF-16 用于主要的操作系统和环境,例如 Microsoft Windows、Java 和 .NET。 |
注释:Unicode 的前 128 个字符(与 ASCII 一一对应)使用单个八位字节编码,这八位字节有与 ASCII 相同的二进制值,从而使有效的 ASCII 文本也成为有效的 UTF-8 编码 Unicode。
提示:HTML 4 支持 UTF-8。 HTML 5 支持 UTF-8 和 UTF-16!
HTML5 标准:Unicode UTF-8
由于 ISO-8859 中的字符集大小受限制,并且不兼容多语言环境,因此 Unicode 联盟开发了 Unicode 标准。
Unicode 标准(几乎)涵盖了世界上所有的字符、标点符号和符号。
Unicode 支持独立于平台和语言的文本处理、存储和传输。
HTML5 中的默认字符编码为 UTF-8。
如果 HTML5 网页使用的字符集与 UTF-8 不同,则应在 <meta> 标记中指定该字符集,例如:
例子
<meta charset="ISO-8859-1">
Unicode 和 UTF-8 之间的区别
Unicode 是字符集。 UTF-8 是编码。
Unicode 是有唯一的十进制数字(代码点)的字符列表。 A = 65,B = 66,C = 67,...。
这个十进制数字列表表示字符串 "hello":104 101 108 108 111
编码是将这些数字转换为二进制数字以存储在计算机中的方式:
UTF-8 编码将像这样(二进制)存储 "hello":01101000 01100101 01101100 01101100 01101111
编码将数字转换为二进制。字符集将字符转换为数字。
HTML5 UTF-8 字符代码
下表是 HTML5 支持的一些 UTF-8 字符代码的列表:
字符代码 | 十进制 | 十六进制 |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latinalainen laajennettu-A | 256-383 | 0100-017F |
Latinalainen laajennettu-B | 384-591 | 0180-024F |
Avaruusmuunnokset | 688-767 | 02B0-02FF |
Diacritic merkit | 768-879 | 0300-036F |
Kreikkalainen ja koptilainen | 880-1023 | 0370-03FF |
Kyrillinen perus | 1024-1279 | 0400-04FF |
Kyrillinen lisäys | 1280-1327 | 0500-052F |
Yleiset punnittomerkit | 8192-8303 | 2000-206F |
Valuuttamerkit | 8352-8399 | 20A0-20CF |
Kirjasimimaiset merkit | 8448-8527 | 2100-214F |
Nuolot | 8592-8703 | 2190-21FF |
Matemaattiset operaattorit | 8704-8959 | 2200-22FF |
Lokeromuodot | 9472-9599 | 2500-257F |
Lohkomuodot | 9600-9631 | 2580-259F |
Geometriset muodot | 9632-9727 | 25A0-25FF |
Muut merkit | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Edellinen sivu HTML symbolit
- Seuraava sivu Latinalaisen kirjaimiston perusteet