دليل مراجعة Unicode (UTF-8) لـ HTML

اتحاد Unicode

طور اتحاد Unicode معيار Unicode. هدافهم هو استبدال الأنظمة النصية الحالية بتنسيق التحويل Unicode المعياري (UTF).

تم نجاح معيار Unicode، وقد تم تحقيقه من خلال HTML وXML وJava وJavaScript وبريد إلكتروني وASP وPHP وما إلى ذلك. يدعم معيار Unicode في العديد من أنظمة التشغيل وجميع المتصفحات الحديثة.

تعاون اتحاد Unicode مع منظمات تطوير المعايير الرائدة (مثل ISO وW3C وECMA).

مجموعة نصية Unicode

يمكن تحقيق Unicode من خلال مجموعة متنوعة من الأنظمة النصية. أكثرها شيوعًا هو UTF-8 وUTF-16:

مجموعة الحروف شرح
UTF-8

يمكن أن تكون طول الحرف في UTF-8 من 1 إلى 4 بت.

يمكن لـ UTF-8 التمثيل أي حرف في معيار Unicode.

UTF-8 متوافق مع ASCII. UTF-8 هو الترميز المفضل للبريد الإلكتروني والمواقع الإلكترونية

UTF-16

تكون شكلاً ترميزياً ثنائي الطول للـ Unicode، قادراً على ترميز كل مروحة Unicode.

يستخدم UTF-16 في الأنظمة الرئيسية والبيئات، مثل Microsoft Windows، Java و .NET.

ملاحظة:تستخدم الحروف الـ 128 الأولى من Unicode (تتناسب مع ASCII) ترميز بطاقة واحدة من الثمانية، ولديها نفس القيمة الثنائية لـ ASCII، مما يجعل النصوص الفعالة ASCII تصبح كذلك لـ ترميز UTF-8 Unicode.

نصيحة:يدعم HTML 4 UTF-8. يدعم HTML 5 UTF-8 و UTF-16!

معيار HTML5: Unicode UTF-8

بسبب قيود حجم مجموعة الحروف في ISO-8859، وعدم التكامل مع بيئات متعددة اللغات، قامت اتحاد Unicode بتطوير معيار Unicode.

معيار Unicode (بشكل تقريبي) يغطي جميع الحروف، العلامات punctuation و الرموز في العالم.

Unicode يدعم معالجة، التخزين و نقل النصوص بشكل مستقل عن المنصة واللغة.

ترميز الحروف الافتراضي في HTML5 هو UTF-8.

إذا كانت مجموعة الحروف المستخدمة في صفحة الويب HTML5 مختلفة عن UTF-8، يجب تحديد هذه المجموعة في علامة <meta>، مثل:

مثال

<meta charset="ISO-8859-1">

الفرق بين Unicode و UTF-8

Unicode هو مجموعة الحروف. UTF-8 هو الترميز.

Unicode هو قائمة بالحروف مع أرقام عشرية فريدة (نقاط code) للحروف. A = 65،B = 66،C = 67،....

هذه القائمة بالأرقام العشرية تمثل النص "hello": 104 101 108 108 111

الترميز هو طريقة تحويل هذه الأرقام إلى أرقام ثنائية لتحفظها في الحاسوب:

ترميز UTF-8 سيدخزن "hello" مثل هذا (بالنظام الثنائي): 01101000 01100101 01101100 01101100 01101111

الترميزتحويل الرقم إلى ثنائي.مجموعة الحروفتحويل الحرف إلى عدد.

رموز الحروف UTF-8 في HTML5

فيما يلي قائمة ببعض رموز الحروف UTF-8 التي يدعمها HTML5:

رمز الحرف بالصيغة العشرية بالصيغة العشرية
التحكم في C0 و Basic Latin 0-127 0000-007F
التحكم في C1 و Latin-1 Supplement 128-255 0080-00FF
اللاتينية الموسعة-A 256-383 0100-017F
اللاتينية الموسعة-B 384-591 0180-024F
المعدلات المفككة 688-767 02B0-02FF
العلامات الحسية 768-879 0300-036F
اليونانية والكوتيكية 880-1023 0370-03FF
الكيريل الأساسي 1024-1279 0400-04FF
المضيف الكيريلي 1280-1327 0500-052F
النقاط العامة 8192-8303 2000-206F
الرموز النقدية 8352-8399 20A0-20CF
الرموز الشبيهة بالحروف 8448-8527 2100-214F
الرشقات 8592-8703 2190-21FF
المعلمات الرياضية 8704-8959 2200-22FF
الرسومات المربعة 9472-9599 2500-257F
العناصر المضمنة 9600-9631 2580-259F
الأشكال الهندسية 9632-9727 25A0-25FF
الرموز المختلفة 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF