คู่มืออ้างอิง HTML Unicode (UTF-8)

Unicode Consortium

Unicode Consortium พัฒนามาตรฐาน Unicode มุ่งหมายที่จะใช้รูปแบบการเปลี่ยนรหัสอักษร Unicode ที่มาตรฐาน (UTF) ที่มีมาแล้วเพื่อทดแทนระบบรหัสอักษรที่มีอยู่แล้ว

มาตรฐาน Unicode ได้ประสบความสำเร็จและสามารถทำงานด้วย HTML, XML, Java, JavaScript, อีเมล, ASP, PHP และอื่น ๆ นอกจากนี้ มาตรฐาน Unicode ยังได้รับการสนับสนุนในระบบปฏิบัติการหลายๆ ระบบและทั้งหมดในบราวเซอร์ปัจจุบัน

Unicode Consortium มีความร่วมมือกับองค์กรการพัฒนามาตรฐานนำของโลก (เช่น ISO, W3C และ ECMA)

ระบบรหัสอักษร Unicode

Unicode สามารถทำด้วยระบบรหัสอักษรต่าง ๆ มากมาย ระบบรหัสที่ใช้เป็นประจำคือ UTF-8 และ UTF-16:

ชุดอักษร ชี้แจง
UTF-8

ระยะทางของอักษรใน UTF-8 สามารถมีจำนวนจาก 1 ถึง 4 ไบต์

UTF-8 สามารถแสดงรหัสอักษรทั้งหมดในมาตรฐาน Unicode

UTF-8 สนับสนุนการทำงานกับ ASCII แบบย้อนหลัง UTF-8 เป็นระบบรหัสอักษรที่เลือกใช้แรกของอีเมลและเว็บไซต์

UTF-16

รูปแบบการเข้ารหัส Unicode 16 บิตเป็นรูปแบบการเข้ารหัสตัวอักษรยาวของ Unicode ที่สามารถเข้ารหัสแบบรับโอกาสทั้งหมดของ Unicode repertoire。

UTF-16 ใช้ในระบบปฏิบัติการและสภาพแวดล้อมหลัก อย่างเช่น Microsoft Windows、Java และ .NET。

หมายเหตุ:ตัวอักษรแรก 128 ตัวของ Unicode (ตรงกันข้ามกับ ASCII) ใช้ระบบเลขสองตัวบิตเดียวเพื่อเข้ารหัส ทำให้ข้อความ ASCII ที่มีอยู่เป็นการเข้ารหัส UTF-8 ที่เป็นตัวเลขสอง Unicode ที่เป็นไปได้。

คำเตือน:HTML 4 สนับสนุน UTF-8. HTML 5 สนับสนุน UTF-8 และ UTF-16!

มาตราฐาน HTML5: Unicode UTF-8

เนื่องจากขนาดของชุดอักษรใน ISO-8859 มีจำกัดและไม่สามารถใช้งานได้ในสภาพแวดล้อมหลายภาษาดังนั้น Unicode Consortium ได้พัฒนามาตราฐาน Unicode。

มาตราฐาน Unicode (เกือบ) ครอบคลุมตัวอักษร、สัญลักษณ์และสัญลักษณ์ทั้งๆที่มีในโลก。

Unicode สนับสนุนการประมวลผล、เก็บความจำและการส่งข้อมูลของข้อความที่ไม่ขึ้นกับระบบและภาษา。

ตัวเลขเข้ารหัสมาตรากระทรวงของ HTML5 คือ UTF-8。

ถ้าตัวอักษรเซตของเว็บไซต์ HTML5 ต่างจาก UTF-8 ต้องระบุตัวอักษรเซตในแท็ก <meta> ตามตัวอย่าง:

ตัวอย่าง

<meta charset="ISO-8859-1">

ความแตกต่างระหว่าง Unicode และ UTF-8

Unicode คือชุดอักษร UTF-8 คือการเข้ารหัส.

Unicode คือรายชื่อตัวอักษรที่มีตัวเลขเดียวกัน (จุดรหัส) ของตัวอักษร A = 65, B = 66, C = 67, ...。

รายชื่อตัวเลขเดียวกันกับตัวอักษร "hello": 104 101 108 108 111

การเข้ารหัสคือวิธีที่แปลงเหล่าตัวเลขเป็นตัวเลขสองเพื่อเก็บในคอมพิวเตอร์:

การเข้ารหัส UTF-8 จะเก็บ "hello" นั้นเช่นนี้ (ระบบเลขสอง): 01101000 01100101 01101100 01101100 01101111

การเข้ารหัสแปลงตัวเลขเป็นระบบเลขสอง。ชุดอักษรแปลงอักษรเป็นตัวเลข。

รหัสอักษร UTF-8 HTML5

ตารางนี้คือรายชื่อรหัสอักษร UTF-8 บางชิ้นที่เป็นสิ่งที่ HTML5 สนับสนุน:

รหัสอักษร 10 ระหว่าง 16 ระหว่าง
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF