ປື້ມອະນຸມັດ HTML Unicode (UTF-8)

Unicode ສະຫະພາບ

Unicode ສະຫະພາບໄດ້ພັດທະນາ Unicode ສະແນນສະແດງ. ເປົ້າໝາຍຂອງພວກເຂົາແມ່ນໃຫ້ UTF (Unicode Transformation Format) ທີ່ສະແດງ Unicode ທີ່ຫຼາຍໃນສະແນນສັນຍາ.

Unicode ສະແນນສະແດງໄດ້ສຳເລັດຫຼາຍແຫ່ງແລະໄດ້ຮັບການກະທຳຜ່ານ HTML, XML, Java, JavaScript, ອີເມວ, ASP, PHP ແລະອີກຫຼາຍບັນດາການປະຕິບັດ. ພາຍໃນຫຼາຍລະບົບປະຕິບັດການແລະທຸກການຄາດດຽວທັງໝົດຂອງການອານຸພາສາຫຼັງປະຈຸບັນສະແດງ Unicode ສະແນນສະແດງ.

Unicode ສະຫະພາບຮ່ວມມືກັບອົງການພັດທະນາສະແນນສະແດງບໍລິຫານທີ່ນໍາໄປນອກ (ເຊັ່ນ ISO, W3C ແລະ ECMA).

Unicode ສະແນນສັນຍາ

Unicode ສາມາດຮັບການສະແດງໂດຍສະແນນສັນຍາຫຼາຍຊັ້ນ. ສິ່ງທີ່ຫຼາຍໃນການສະແດງແມ່ນ UTF-8 ແລະ UTF-16:

ລະຫັດຄວາມ ການອະທິບາຍ
UTF-8

ຄວາມຍາວຂອງຄຳໃນ UTF8 ສາມາດຢູ່ລະຫວ່າງ 1 ຫາ 4 ບອັດ.

UTF-8 ສາມາດສະແດງສິ່ງທີ່ຈະປະກອບຢູ່ໃນ Unicode ສະແນນສັນຍາ.

UTF-8 ສາມາດຮັບການກັບຂື້ນ ASCII. UTF-8 ແມ່ນສິ່ງທີ່ຫຼາຍໃນການນຳໃຊ້ສຳລັບການສົ່ງອີເມວ ແລະ ການສະແດງເວັບໄຊ

UTF-16

16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。

UTF-16 用于主要的操作系统和环境,例如 Microsoft Windows、Java 和 .NET。

注释:Unicode 的前 128 个字符(与 ASCII 一一对应)使用单个八位字节编码,这八位字节有与 ASCII 相同的二进制值,从而使有效的 ASCII 文本也成为有效的 UTF-8 编码 Unicode。

ຂໍ້ສັງເກດ:HTML 4 ສະໜັບສະໜູນ UTF-8. HTML 5 ສະໜັບສະໜູນ UTF-8 ແລະ UTF-16!

ມາດຕະຖານ HTML5: Unicode UTF-8

ເພາະຄະຕິກິດຄວາມໃນ ISO-8859 ມີຂະໜາດຈຳນວນຈະຍັງຄວນ ແລະ ບໍ່ສາມາດໃຊ້ໃນການຄວາມສະເພາະພາສາຫຼາຍຫຼາຍ ສະຫະພັນ Unicode ໄດ້ພັດທະນາມາດຕະຖານ Unicode.

ມາດຕະຖານ Unicode (ບໍ່) ກວມເອົາລະຫັດຄວາມ ສີນວຽງ ແລະ ສີນວຽງທັງໝົດໃນໂລກ.

Unicode ສະໜັບສະໜູນການຂັດແຍ່ງຄວາມທີ່ບໍ່ອາດຕິດຕາມການປ່ຽນແປງຄອມພິວເຕິກ ແລະພາສາ.

ຄະຕິກິດຄວາມຜູ້ທີ່ອາດເປັນຢ່າງສະເພາະ UTF-8 ໃນ HTML5.

ຖ້າຄະຕິກິດຄວາມຂອງເວັບໄຊ HTML5 ບໍ່ແມ່ນ UTF-8 ຈະຕ້ອງກຳນົດຄະຕິກິດຄວາມໃນແຜງ <meta> ອີກຕາມ:

ຕົວຢ່າງ

<meta charset="ISO-8859-1">

ຄວາມແຕກຕ່າງລະຫັດຄວາມ Unicode ແລະ UTF-8

Unicode ແມ່ນລະຫັດຄວາມ. UTF-8 ແມ່ນການວັດຄານ.

Unicode ແມ່ນລະຫັດຄວາມທີ່ມີຈຳນວນສະເພາະຫານິວເຄຣັນມີຄວາມສະເພາະ (ລະຫັດວັດສະນະ) A = 65, B = 66, C = 67, ...。

ລະຫັດສະເພາະຫານິວເຄຣັນຂອງຄຳກ່າວ "hello": 104 101 108 108 111

ການວັດຄານແມ່ນວິທີທີ່ປ່ຽນຈຳນວນເປັນສະເພາະຫານິວເຄຣັນເພື່ອບັນທຶກໃນຄອມພິວເຕິກ:

UTF-8 ການວັດຄານຈະປະກອບຄືກັບນັ້ນ (ສະເພາະຫານິວເຄຣັນ) "hello": 01101000 01100101 01101100 01101100 01101111

ການວັດຄານປ່ຽນຈຳນວນເປັນສະເພາະຫານິວເຄຣັນ.ລະຫັດຄວາມປ່ຽນຄວາມເປັນຈຳນວນທີ່.

ລະຫັດຄວາມ UTF-8 HTML5

ຕາມໃນການລະບຸ UTF-8 ບາງລະຫັດຄວາມທີ່ HTML5 ສະໜັບສະໜູນ:

ລະຫັດຄວາມ ສະເພາະຫານິວເຄຣັນ ສະເພາະຫານິວເຄຣັນ
C0 Controls and Basic Latin 0-127 0000-007F
ຄະຕິກິດ C1 ແລະ Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF