كتيب مرجع Unicode (UTF-8) HTML

اتحاد Unicode

ابتكر اتحاد Unicode معيار Unicode. هدافهم هو استبدال مجموعات الحروف الحالية بتنسيق التحويل Unicode المعياري (UTF).

تم نجاح معيار Unicode، وتم تنفيذه من خلال HTML وXML وJava وJavaScript وبريد إلكتروني وASP وPHP وما إلى ذلك. يدعم معيار Unicode في العديد من أنظمة التشغيل وكل المتصفحات الحديثة.

تعاون اتحاد Unicode مع منظمات تطوير المعايير الرائدة (مثل ISO وW3C وECMA).

مجموعة Unicode

يمكن تحقيق Unicode من خلال مجموعة متنوعة من مجموعات الحروف. أكثر هذه المجموعات شيوعًا هما UTF-8 وUTF-16:

مجموعة الحروف شرح
UTF-8

يمكن أن تكون طول الأحرف في UTF-8 من 1 إلى 4 بت.

يمكن لـ UTF-8 التمثيل أي حرف في معيار Unicode.

UTF-8 متوافق مع ASCII. UTF-8 هو الترميز المفضل للبريد الإلكتروني والصفحات الالكترونية

UTF-16

تكونة Unicode 16 بت هو تكوين الحروف متعدد الطول لـ Unicode، ويمكنه تكوين كل مجموعة من Unicode.

يستخدم UTF-16 في الأنظمة الرئيسية والبيئات مثل Microsoft Windows، Java و .NET.

ملاحظة:تستخدم الحروف الـ 128 الأولى من Unicode (تتناسب مع ASCII) تكوينًا ثنائيًا واحدًا، له نفس القيمة الثنائية مثل ASCII، مما يجعل النصوص الفعالة ASCII تصبح أيضًا تكوينًا UTF-8 صالحًا Unicode.

نصيحة:HTML 4 يدعم UTF-8. HTML 5 يدعم UTF-8 و UTF-16!

معيار HTML5: Unicode UTF-8

بسبب قيود حجم مجموعة الحروف في ISO-8859، وعدم توافقها مع بيئات متعددة اللغات، قامت اتحاد Unicode بتطوير معيار Unicode.

معيار Unicode (تقريبًا) يغطي جميع الحروف، العلامات والرموز في العالم.

Unicode يدعم معالجة، تخزين و نقل النصوص المستقلة عن المنصة واللغة.

رمز التكوين الافتراضي في HTML5 هو UTF-8.

إذا كانت مجموعة الحروف المستخدمة في صفحة الويب HTML5 تختلف عن UTF-8، فيجب تحديد هذه المجموعة في علامة <meta>، مثلًا:

مثال

<meta charset="ISO-8859-1">

الفرق بين Unicode و UTF-8

Unicode هو مجموعة الحروف. UTF-8 هو تكوين.

Unicode هو قائمة حروف تحتوي على أرقام عشرية فريدة (نقاط التكوين). A = 65،B = 66،C = 67،....

هذه القائمة العددية العشرية تمثل النص "hello": 104 101 108 108 111

التكوين هو طريقة تحويل هذه الأعداد إلى أعداد ثنائية لتحتوي على الكمبيوتر:

تخزين التكوين UTF-8 لـ "hello" سيكون هكذا (ثنائي): 01101000 01100101 01101100 01101100 01101111

التكوينتحويل العدد إلى ثنائي.مجموعة الحروفتحويل الحرف إلى عدد.

رموز الحروف UTF-8 في HTML5

التالي هو قائمة بعض رموز الحروف UTF-8 المدعومة من قبل HTML5:

رمز الحرف عشري سدس عشري
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
اللاتينية الموسعة-A 256-383 0100-017F
اللاتينية الموسعة-B 384-591 0180-024F
معدلات المسافة 688-767 02B0-02FF
علامات التوضيح 768-879 0300-036F
اليونانية والكوتيكية 880-1023 0370-03FF
السيريلية الأساسية 1024-1279 0400-04FF
مكملة السيريلية 1280-1327 0500-052F
أشكال النقاط العامة 8192-8303 2000-206F
أشكال العملات 8352-8399 20A0-20CF
أشكال كتابية 8448-8527 2100-214F
الرشاشات 8592-8703 2190-21FF
عمليات رياضية 8704-8959 2200-22FF
رسم خطوط الصندوق 9472-9599 2500-257F
عناصر بلوك 9600-9631 2580-259F
شكل هندسي 9632-9727 25A0-25FF
أيقونات متنوعة 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF