ຄູ່ມື HTML Unicode (UTF-8)

Unicode ສະຫະພັນ

Unicode ສະຫະພັນໄດ້ພັດທະນາ Unicode ມາດຕະວັດ. ເປົ້າໝາຍຂອງພວກເຂົາແມ່ນທີ່ຈະປ່ຽນຄຳຕາມແບບ UTF (Unicode Transformation Format) ທີ່ປະກອບມີກັບຄຳຕາມທັງໝົດ

Unicode ມາດຕະວັດໄດ້ສຳເລັດແລະໄດ້ຮັບການກະທຳຜ່ານ HTML, XML, Java, JavaScript, ອີເມວ, ASP, PHP ແລະ ອື່ນໆ. ພາຍໃນລະບົບປະຕິບັດການຫລາຍບ່ອນແລະໃນຫລາຍເຄື່ອງບັດທິພາບສາຍໃນທົ່ວໄປກໍ່ຮັບການສະໜັບສະໜູນ Unicode ມາດຕະວັດ

Unicode ສະຫະພັນ ໄດ້ເຮັດວຽກຮ່ວມກັບອົງການພັດທະນາມາດຕະວັດທີ່ນໍາໄປກ່ອນ (ເຊັ່ນ ISO, W3C ແລະ ECMA)

Unicode ຄຳຕາມສະຫະພັນ

Unicode ສາມາດຮັບມອບໂດຍກົງຂອງຄຳຕາມທັງໝົດ. ຄວາມແນະນຳທີ່ໃຊ້ຫລາຍທີ່ສຸດແມ່ນ UTF-8 ແລະ UTF-16:

字符集 ການອະທິບາຍ
UTF-8

ຄວາມຍາວຂອງຄຳຕາມ UTF-8 ສາມາດຢູ່ລະຫວ່າງ 1 ຫາ 4 ບອຍ

UTF-8 ສາມາດສະແດງຂອງພາສາທັງໝົດຂອງ Unicode ມັນ

UTF-8 ສາມາດການສະຫຼຸບ ASCII. UTF-8 ແມ່ນຄວາມແນະນຳສຳລັບການຄົ້ນຫາຂອງອີເມວ ແລະ ຂາຍເວັບໄຊ

UTF-16

16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。

UTF-16 用于主要的操作系统和环境,例如 Microsoft Windows、Java 和 .NET。

注释:Unicode 的前 128 个字符(与 ASCII 一一对应)使用单个八位字节编码,这八位字节有与 ASCII 相同的二进制值,从而使有效的 ASCII 文本也成为有效的 UTF-8 编码 Unicode。

提示:HTML 4 支持 UTF-8。 HTML 5 支持 UTF-8 和 UTF-16!

HTML5 标准:Unicode UTF-8

由于 ISO-8859 中的字符集大小受限制,并且不兼容多语言环境,因此 Unicode 联盟开发了 Unicode 标准。

Unicode 标准(几乎)涵盖了世界上所有的字符、标点符号和符号。

Unicode 支持独立于平台和语言的文本处理、存储和传输。

HTML5 中的默认字符编码为 UTF-8。

如果 HTML5 网页使用的字符集与 UTF-8 不同,则应在 标记中指定该字符集,例如:

例子


Unicode 和 UTF-8 之间的区别

Unicode 是字符集。 UTF-8 是编码。

Unicode 是有唯一的十进制数字(代码点)的字符列表。 A = 65,B = 66,C = 67,...。

这个十进制数字列表表示字符串 "hello":104 101 108 108 111

编码是将这些数字转换为二进制数字以存储在计算机中的方式:

UTF-8 编码将像这样(二进制)存储 "hello":01101000 01100101 01101100 01101100 01101111

编码将数字转换为二进制。字符集将字符转换为数字。

HTML5 UTF-8 字符代码

下表是 HTML5 支持的一些 UTF-8 字符代码的列表:

ລະຫັດຄວາມ ສະເພາະສາມາດ ສະເພາະສາມາດ
C0 ຄອນໂທລະບົບ ແລະ Latin 0-127 0000-007F
ຄອນໂທລະບົບ C1 ແລະ ສິ່ງເພີ່ມຕາມ Latin-1 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF