คู่มืออ้างอิง HTML Unicode (UTF-8)
- หน้าก่อนหน้า สัญลักษณ์ HTML
- หน้าต่อไป พื้นฐานละติน
Unicode Consortium
Unicode Consortium พัฒนามาตรฐาน Unicode มุ่งหมายที่จะใช้รูปแบบการเปลี่ยนรหัสอักษร Unicode ที่มาตรฐาน (UTF) ที่มีมาแล้วเพื่อทดแทนระบบรหัสอักษรที่มีอยู่แล้ว
มาตรฐาน Unicode ได้ประสบความสำเร็จและสามารถทำงานด้วย HTML, XML, Java, JavaScript, อีเมล, ASP, PHP และอื่น ๆ นอกจากนี้ มาตรฐาน Unicode ยังได้รับการสนับสนุนในระบบปฏิบัติการหลายๆ ระบบและทั้งหมดในบราวเซอร์ปัจจุบัน
Unicode Consortium มีความร่วมมือกับองค์กรการพัฒนามาตรฐานนำของโลก (เช่น ISO, W3C และ ECMA)
ระบบรหัสอักษร Unicode
Unicode สามารถทำด้วยระบบรหัสอักษรต่าง ๆ มากมาย ระบบรหัสที่ใช้เป็นประจำคือ UTF-8 และ UTF-16:
ชุดอักษร | ชี้แจง |
---|---|
UTF-8 |
ระยะทางของอักษรใน UTF-8 สามารถมีจำนวนจาก 1 ถึง 4 ไบต์ UTF-8 สามารถแสดงรหัสอักษรทั้งหมดในมาตรฐาน Unicode UTF-8 สนับสนุนการทำงานกับ ASCII แบบย้อนหลัง UTF-8 เป็นระบบรหัสอักษรที่เลือกใช้แรกของอีเมลและเว็บไซต์ |
UTF-16 |
รูปแบบการเข้ารหัส Unicode 16 บิตเป็นรูปแบบการเข้ารหัสตัวอักษรยาวของ Unicode ที่สามารถเข้ารหัสแบบรับโอกาสทั้งหมดของ Unicode repertoire。 UTF-16 ใช้ในระบบปฏิบัติการและสภาพแวดล้อมหลัก อย่างเช่น Microsoft Windows、Java และ .NET。 |
หมายเหตุ:ตัวอักษรแรก 128 ตัวของ Unicode (ตรงกันข้ามกับ ASCII) ใช้ระบบเลขสองตัวบิตเดียวเพื่อเข้ารหัส ทำให้ข้อความ ASCII ที่มีอยู่เป็นการเข้ารหัส UTF-8 ที่เป็นตัวเลขสอง Unicode ที่เป็นไปได้。
คำเตือน:HTML 4 สนับสนุน UTF-8. HTML 5 สนับสนุน UTF-8 และ UTF-16!
มาตราฐาน HTML5: Unicode UTF-8
เนื่องจากขนาดของชุดอักษรใน ISO-8859 มีจำกัดและไม่สามารถใช้งานได้ในสภาพแวดล้อมหลายภาษาดังนั้น Unicode Consortium ได้พัฒนามาตราฐาน Unicode。
มาตราฐาน Unicode (เกือบ) ครอบคลุมตัวอักษร、สัญลักษณ์และสัญลักษณ์ทั้งๆที่มีในโลก。
Unicode สนับสนุนการประมวลผล、เก็บความจำและการส่งข้อมูลของข้อความที่ไม่ขึ้นกับระบบและภาษา。
ตัวเลขเข้ารหัสมาตรากระทรวงของ HTML5 คือ UTF-8。
ถ้าตัวอักษรเซตของเว็บไซต์ HTML5 ต่างจาก UTF-8 ต้องระบุตัวอักษรเซตในแท็ก <meta> ตามตัวอย่าง:
ตัวอย่าง
<meta charset="ISO-8859-1">
ความแตกต่างระหว่าง Unicode และ UTF-8
Unicode คือชุดอักษร UTF-8 คือการเข้ารหัส.
Unicode คือรายชื่อตัวอักษรที่มีตัวเลขเดียวกัน (จุดรหัส) ของตัวอักษร A = 65, B = 66, C = 67, ...。
รายชื่อตัวเลขเดียวกันกับตัวอักษร "hello": 104 101 108 108 111
การเข้ารหัสคือวิธีที่แปลงเหล่าตัวเลขเป็นตัวเลขสองเพื่อเก็บในคอมพิวเตอร์:
การเข้ารหัส UTF-8 จะเก็บ "hello" นั้นเช่นนี้ (ระบบเลขสอง): 01101000 01100101 01101100 01101100 01101111
การเข้ารหัสแปลงตัวเลขเป็นระบบเลขสอง。ชุดอักษรแปลงอักษรเป็นตัวเลข。
รหัสอักษร UTF-8 HTML5
ตารางนี้คือรายชื่อรหัสอักษร UTF-8 บางชิ้นที่เป็นสิ่งที่ HTML5 สนับสนุน:
รหัสอักษร | 10 ระหว่าง | 16 ระหว่าง |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- หน้าก่อนหน้า สัญลักษณ์ HTML
- หน้าต่อไป พื้นฐานละติน