ປື້ມອະນຸມັດ HTML Unicode (UTF-8)
- ບ່ອນໜ້າກ່ອນ ອັກສັດ HTML
- ບ່ອນໜ້າຫຼັງ ພື້ນຖານພາສາລາຕິນ
Unicode ສະຫະພາບ
Unicode ສະຫະພາບໄດ້ພັດທະນາ Unicode ສະແນນສະແດງ. ເປົ້າໝາຍຂອງພວກເຂົາແມ່ນໃຫ້ UTF (Unicode Transformation Format) ທີ່ສະແດງ Unicode ທີ່ຫຼາຍໃນສະແນນສັນຍາ.
Unicode ສະແນນສະແດງໄດ້ສຳເລັດຫຼາຍແຫ່ງແລະໄດ້ຮັບການກະທຳຜ່ານ HTML, XML, Java, JavaScript, ອີເມວ, ASP, PHP ແລະອີກຫຼາຍບັນດາການປະຕິບັດ. ພາຍໃນຫຼາຍລະບົບປະຕິບັດການແລະທຸກການຄາດດຽວທັງໝົດຂອງການອານຸພາສາຫຼັງປະຈຸບັນສະແດງ Unicode ສະແນນສະແດງ.
Unicode ສະຫະພາບຮ່ວມມືກັບອົງການພັດທະນາສະແນນສະແດງບໍລິຫານທີ່ນໍາໄປນອກ (ເຊັ່ນ ISO, W3C ແລະ ECMA).
Unicode ສະແນນສັນຍາ
Unicode ສາມາດຮັບການສະແດງໂດຍສະແນນສັນຍາຫຼາຍຊັ້ນ. ສິ່ງທີ່ຫຼາຍໃນການສະແດງແມ່ນ UTF-8 ແລະ UTF-16:
ລະຫັດຄວາມ | ການອະທິບາຍ |
---|---|
UTF-8 |
ຄວາມຍາວຂອງຄຳໃນ UTF8 ສາມາດຢູ່ລະຫວ່າງ 1 ຫາ 4 ບອັດ. UTF-8 ສາມາດສະແດງສິ່ງທີ່ຈະປະກອບຢູ່ໃນ Unicode ສະແນນສັນຍາ. UTF-8 ສາມາດຮັບການກັບຂື້ນ ASCII. UTF-8 ແມ່ນສິ່ງທີ່ຫຼາຍໃນການນຳໃຊ້ສຳລັບການສົ່ງອີເມວ ແລະ ການສະແດງເວັບໄຊ |
UTF-16 |
16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。 UTF-16 用于主要的操作系统和环境,例如 Microsoft Windows、Java 和 .NET。 |
注释:Unicode 的前 128 个字符(与 ASCII 一一对应)使用单个八位字节编码,这八位字节有与 ASCII 相同的二进制值,从而使有效的 ASCII 文本也成为有效的 UTF-8 编码 Unicode。
ຂໍ້ສັງເກດ:HTML 4 ສະໜັບສະໜູນ UTF-8. HTML 5 ສະໜັບສະໜູນ UTF-8 ແລະ UTF-16!
ມາດຕະຖານ HTML5: Unicode UTF-8
ເພາະຄະຕິກິດຄວາມໃນ ISO-8859 ມີຂະໜາດຈຳນວນຈະຍັງຄວນ ແລະ ບໍ່ສາມາດໃຊ້ໃນການຄວາມສະເພາະພາສາຫຼາຍຫຼາຍ ສະຫະພັນ Unicode ໄດ້ພັດທະນາມາດຕະຖານ Unicode.
ມາດຕະຖານ Unicode (ບໍ່) ກວມເອົາລະຫັດຄວາມ ສີນວຽງ ແລະ ສີນວຽງທັງໝົດໃນໂລກ.
Unicode ສະໜັບສະໜູນການຂັດແຍ່ງຄວາມທີ່ບໍ່ອາດຕິດຕາມການປ່ຽນແປງຄອມພິວເຕິກ ແລະພາສາ.
ຄະຕິກິດຄວາມຜູ້ທີ່ອາດເປັນຢ່າງສະເພາະ UTF-8 ໃນ HTML5.
ຖ້າຄະຕິກິດຄວາມຂອງເວັບໄຊ HTML5 ບໍ່ແມ່ນ UTF-8 ຈະຕ້ອງກຳນົດຄະຕິກິດຄວາມໃນແຜງ <meta> ອີກຕາມ:
ຕົວຢ່າງ
<meta charset="ISO-8859-1">
ຄວາມແຕກຕ່າງລະຫັດຄວາມ Unicode ແລະ UTF-8
Unicode ແມ່ນລະຫັດຄວາມ. UTF-8 ແມ່ນການວັດຄານ.
Unicode ແມ່ນລະຫັດຄວາມທີ່ມີຈຳນວນສະເພາະຫານິວເຄຣັນມີຄວາມສະເພາະ (ລະຫັດວັດສະນະ) A = 65, B = 66, C = 67, ...。
ລະຫັດສະເພາະຫານິວເຄຣັນຂອງຄຳກ່າວ "hello": 104 101 108 108 111
ການວັດຄານແມ່ນວິທີທີ່ປ່ຽນຈຳນວນເປັນສະເພາະຫານິວເຄຣັນເພື່ອບັນທຶກໃນຄອມພິວເຕິກ:
UTF-8 ການວັດຄານຈະປະກອບຄືກັບນັ້ນ (ສະເພາະຫານິວເຄຣັນ) "hello": 01101000 01100101 01101100 01101100 01101111
ການວັດຄານປ່ຽນຈຳນວນເປັນສະເພາະຫານິວເຄຣັນ.ລະຫັດຄວາມປ່ຽນຄວາມເປັນຈຳນວນທີ່.
ລະຫັດຄວາມ UTF-8 HTML5
ຕາມໃນການລະບຸ UTF-8 ບາງລະຫັດຄວາມທີ່ HTML5 ສະໜັບສະໜູນ:
ລະຫັດຄວາມ | ສະເພາະຫານິວເຄຣັນ | ສະເພາະຫານິວເຄຣັນ |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
ຄະຕິກິດ C1 ແລະ Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- ບ່ອນໜ້າກ່ອນ ອັກສັດ HTML
- ບ່ອນໜ້າຫຼັງ ພື້ນຖານພາສາລາຕິນ