كتيب مرجع Unicode (UTF-8) HTML
- الصفحة السابقة الرموز في HTML
- الصفحة التالية أساسيات اللاتينية
اتحاد Unicode
ابتكر اتحاد Unicode معيار Unicode. هدافهم هو استبدال مجموعات الحروف الحالية بتنسيق التحويل Unicode المعياري (UTF).
تم نجاح معيار Unicode، وتم تنفيذه من خلال HTML وXML وJava وJavaScript وبريد إلكتروني وASP وPHP وما إلى ذلك. يدعم معيار Unicode في العديد من أنظمة التشغيل وكل المتصفحات الحديثة.
تعاون اتحاد Unicode مع منظمات تطوير المعايير الرائدة (مثل ISO وW3C وECMA).
مجموعة Unicode
يمكن تحقيق Unicode من خلال مجموعة متنوعة من مجموعات الحروف. أكثر هذه المجموعات شيوعًا هما UTF-8 وUTF-16:
مجموعة الحروف | شرح |
---|---|
UTF-8 |
يمكن أن تكون طول الأحرف في UTF-8 من 1 إلى 4 بت. يمكن لـ UTF-8 التمثيل أي حرف في معيار Unicode. UTF-8 متوافق مع ASCII. UTF-8 هو الترميز المفضل للبريد الإلكتروني والصفحات الالكترونية |
UTF-16 |
تكونة Unicode 16 بت هو تكوين الحروف متعدد الطول لـ Unicode، ويمكنه تكوين كل مجموعة من Unicode. يستخدم UTF-16 في الأنظمة الرئيسية والبيئات مثل Microsoft Windows، Java و .NET. |
ملاحظة:تستخدم الحروف الـ 128 الأولى من Unicode (تتناسب مع ASCII) تكوينًا ثنائيًا واحدًا، له نفس القيمة الثنائية مثل ASCII، مما يجعل النصوص الفعالة ASCII تصبح أيضًا تكوينًا UTF-8 صالحًا Unicode.
نصيحة:HTML 4 يدعم UTF-8. HTML 5 يدعم UTF-8 و UTF-16!
معيار HTML5: Unicode UTF-8
بسبب قيود حجم مجموعة الحروف في ISO-8859، وعدم توافقها مع بيئات متعددة اللغات، قامت اتحاد Unicode بتطوير معيار Unicode.
معيار Unicode (تقريبًا) يغطي جميع الحروف، العلامات والرموز في العالم.
Unicode يدعم معالجة، تخزين و نقل النصوص المستقلة عن المنصة واللغة.
رمز التكوين الافتراضي في HTML5 هو UTF-8.
إذا كانت مجموعة الحروف المستخدمة في صفحة الويب HTML5 تختلف عن UTF-8، فيجب تحديد هذه المجموعة في علامة <meta>، مثلًا:
مثال
<meta charset="ISO-8859-1">
الفرق بين Unicode و UTF-8
Unicode هو مجموعة الحروف. UTF-8 هو تكوين.
Unicode هو قائمة حروف تحتوي على أرقام عشرية فريدة (نقاط التكوين). A = 65،B = 66،C = 67،....
هذه القائمة العددية العشرية تمثل النص "hello": 104 101 108 108 111
التكوين هو طريقة تحويل هذه الأعداد إلى أعداد ثنائية لتحتوي على الكمبيوتر:
تخزين التكوين UTF-8 لـ "hello" سيكون هكذا (ثنائي): 01101000 01100101 01101100 01101100 01101111
التكوينتحويل العدد إلى ثنائي.مجموعة الحروفتحويل الحرف إلى عدد.
رموز الحروف UTF-8 في HTML5
التالي هو قائمة بعض رموز الحروف UTF-8 المدعومة من قبل HTML5:
رمز الحرف | عشري | سدس عشري |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
اللاتينية الموسعة-A | 256-383 | 0100-017F |
اللاتينية الموسعة-B | 384-591 | 0180-024F |
معدلات المسافة | 688-767 | 02B0-02FF |
علامات التوضيح | 768-879 | 0300-036F |
اليونانية والكوتيكية | 880-1023 | 0370-03FF |
السيريلية الأساسية | 1024-1279 | 0400-04FF |
مكملة السيريلية | 1280-1327 | 0500-052F |
أشكال النقاط العامة | 8192-8303 | 2000-206F |
أشكال العملات | 8352-8399 | 20A0-20CF |
أشكال كتابية | 8448-8527 | 2100-214F |
الرشاشات | 8592-8703 | 2190-21FF |
عمليات رياضية | 8704-8959 | 2200-22FF |
رسم خطوط الصندوق | 9472-9599 | 2500-257F |
عناصر بلوك | 9600-9631 | 2580-259F |
شكل هندسي | 9632-9727 | 25A0-25FF |
أيقونات متنوعة | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- الصفحة السابقة الرموز في HTML
- الصفحة التالية أساسيات اللاتينية