دليل مراجعة Unicode (UTF-8) لـ HTML
- الصفحة السابقة أشكال رموز HTML
- الصفحة التالية أساسيات اللاتينية
اتحاد Unicode
طور اتحاد Unicode معيار Unicode. هدافهم هو استبدال الأنظمة النصية الحالية بتنسيق التحويل Unicode المعياري (UTF).
تم نجاح معيار Unicode، وقد تم تحقيقه من خلال HTML وXML وJava وJavaScript وبريد إلكتروني وASP وPHP وما إلى ذلك. يدعم معيار Unicode في العديد من أنظمة التشغيل وجميع المتصفحات الحديثة.
تعاون اتحاد Unicode مع منظمات تطوير المعايير الرائدة (مثل ISO وW3C وECMA).
مجموعة نصية Unicode
يمكن تحقيق Unicode من خلال مجموعة متنوعة من الأنظمة النصية. أكثرها شيوعًا هو UTF-8 وUTF-16:
مجموعة الحروف | شرح |
---|---|
UTF-8 |
يمكن أن تكون طول الحرف في UTF-8 من 1 إلى 4 بت. يمكن لـ UTF-8 التمثيل أي حرف في معيار Unicode. UTF-8 متوافق مع ASCII. UTF-8 هو الترميز المفضل للبريد الإلكتروني والمواقع الإلكترونية |
UTF-16 |
تكون شكلاً ترميزياً ثنائي الطول للـ Unicode، قادراً على ترميز كل مروحة Unicode. يستخدم UTF-16 في الأنظمة الرئيسية والبيئات، مثل Microsoft Windows، Java و .NET. |
ملاحظة:تستخدم الحروف الـ 128 الأولى من Unicode (تتناسب مع ASCII) ترميز بطاقة واحدة من الثمانية، ولديها نفس القيمة الثنائية لـ ASCII، مما يجعل النصوص الفعالة ASCII تصبح كذلك لـ ترميز UTF-8 Unicode.
نصيحة:يدعم HTML 4 UTF-8. يدعم HTML 5 UTF-8 و UTF-16!
معيار HTML5: Unicode UTF-8
بسبب قيود حجم مجموعة الحروف في ISO-8859، وعدم التكامل مع بيئات متعددة اللغات، قامت اتحاد Unicode بتطوير معيار Unicode.
معيار Unicode (بشكل تقريبي) يغطي جميع الحروف، العلامات punctuation و الرموز في العالم.
Unicode يدعم معالجة، التخزين و نقل النصوص بشكل مستقل عن المنصة واللغة.
ترميز الحروف الافتراضي في HTML5 هو UTF-8.
إذا كانت مجموعة الحروف المستخدمة في صفحة الويب HTML5 مختلفة عن UTF-8، يجب تحديد هذه المجموعة في علامة <meta>، مثل:
مثال
<meta charset="ISO-8859-1">
الفرق بين Unicode و UTF-8
Unicode هو مجموعة الحروف. UTF-8 هو الترميز.
Unicode هو قائمة بالحروف مع أرقام عشرية فريدة (نقاط code) للحروف. A = 65،B = 66،C = 67،....
هذه القائمة بالأرقام العشرية تمثل النص "hello": 104 101 108 108 111
الترميز هو طريقة تحويل هذه الأرقام إلى أرقام ثنائية لتحفظها في الحاسوب:
ترميز UTF-8 سيدخزن "hello" مثل هذا (بالنظام الثنائي): 01101000 01100101 01101100 01101100 01101111
الترميزتحويل الرقم إلى ثنائي.مجموعة الحروفتحويل الحرف إلى عدد.
رموز الحروف UTF-8 في HTML5
فيما يلي قائمة ببعض رموز الحروف UTF-8 التي يدعمها HTML5:
رمز الحرف | بالصيغة العشرية | بالصيغة العشرية |
---|---|---|
التحكم في C0 و Basic Latin | 0-127 | 0000-007F |
التحكم في C1 و Latin-1 Supplement | 128-255 | 0080-00FF |
اللاتينية الموسعة-A | 256-383 | 0100-017F |
اللاتينية الموسعة-B | 384-591 | 0180-024F |
المعدلات المفككة | 688-767 | 02B0-02FF |
العلامات الحسية | 768-879 | 0300-036F |
اليونانية والكوتيكية | 880-1023 | 0370-03FF |
الكيريل الأساسي | 1024-1279 | 0400-04FF |
المضيف الكيريلي | 1280-1327 | 0500-052F |
النقاط العامة | 8192-8303 | 2000-206F |
الرموز النقدية | 8352-8399 | 20A0-20CF |
الرموز الشبيهة بالحروف | 8448-8527 | 2100-214F |
الرشقات | 8592-8703 | 2190-21FF |
المعلمات الرياضية | 8704-8959 | 2200-22FF |
الرسومات المربعة | 9472-9599 | 2500-257F |
العناصر المضمنة | 9600-9631 | 2580-259F |
الأشكال الهندسية | 9632-9727 | 25A0-25FF |
الرموز المختلفة | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- الصفحة السابقة أشكال رموز HTML
- الصفحة التالية أساسيات اللاتينية