دستورالعمل مرجع Unicode (UTF-8) HTML

اتحادیه‌یونیکد

اتحادیه‌یونیکداستانداردیونیکدرا‌توسعه‌ داده‌است. هدف‌آن‌است‌که‌با‌استفاده‌ازفرمت‌های‌تبدیل‌یونیکداستاندارد(UTF)گروه‌های‌نشان‌های‌موجود‌را‌جایگزین‌کند.

استانداردیونیکدبا‌ موفقیت‌دریافت‌واز طریق HTML،XML،Java،JavaScript،ایمیل،ASP،PHPوغیره‌ای‌که‌اجرا‌شده‌است‌به‌کاررفته‌است. در‌بسیاری‌ازسیستم‌عامل‌هاوهمه‌ی‌مرورگرهای‌معمولی‌،استانداردیونیکدپشتیبانی‌می‌شود.

اتحادیه‌یونیکدبا‌سازمان‌های‌توسعه‌ی‌استانداردهای‌برجسته‌(مثلاً ISO،W3CوECMA)همکاری‌می‌کند.

گروه‌های‌یونیکد

یونیکد‌می‌تواند‌با‌راه‌های‌مختلف‌از‌گروه‌های‌نشان‌ها‌ایجاد‌شود. رایج‌ترین‌کد‌ها‌UTF-8وUTF-16هستند:

مجموعه حروف توضیحات
UTF-8

طول‌نشان‌ها در UTF8 می‌تواند بین‌1تا‌4‌بایت‌باشد.

UTF-8 می‌تواند هرگونه‌نشان‌در‌استاندارد‌یونیکد‌را‌نشان‌دهد.

UTF-8 به‌عنوان‌ی‌که‌با‌ASCII‌قابل‌مطابقت‌است‌استفاده‌می‌شود. UTF-8 به‌عنوان‌کد‌مستند‌ای‌برای‌ایمیل‌و‌وب‌پایان‌نویسی‌است.

UTF-16

فرمت تبدیل Unicode 16‌بیتی کدگذاری متغیر طولی Unicode است که می‌تواند تمام مجموعه حروف Unicode را کدگذاری کند.

UTF-16 برای سیستم‌عامل‌ها و محیط‌های اصلی استفاده می‌شود، مانند Microsoft Windows، Java و .NET.

نکته:پیش‌نویس 128 حرف اول Unicode (که با ASCII یک به یک مطابقت دارد) با استفاده از یک بایت هشت‌بیتی کدگذاری می‌شود، این بایت هشت‌بیتی دارای ارزش دودویی مشابه ASCII است، بنابراین متن ASCII مؤثر نیز کدگذاری UTF-8 مؤثر Unicode است.

توجه:HTML 4 UTF-8 را پشتیبانی می‌کند. HTML 5 UTF-8 و UTF-16 را پشتیبانی می‌کند!

استاندارد HTML5: Unicode UTF-8

به دلیل محدودیت‌های اندازه مجموعه حروف در ISO-8859 و ناخوانایی آن در محیط‌های چند زبانه، اتحادیه Unicode استاندارد Unicode را توسعه داد.

استاندارد Unicode (تقریباً) همه حروف، علامت‌های نگارشی و نشانه‌ها در جهان را پوشش می‌دهد.

Unicode پشتیبانی از پردازش، ذخیره و انتقال متن مستقل از پلتفرم و زبان را ارائه می‌دهد.

کدگذاری پیش‌فرض HTML5 UTF-8 است.

اگر مجموعه حروف وب‌سایت HTML5 از UTF-8 متفاوت باشد، باید این مجموعه حروف در برچسب <meta> مشخص شود، به عنوان مثال:

مثال

<meta charset="ISO-8859-1">

تفاوت بین Unicode و UTF-8

Unicode مجموعه حروف است. UTF-8 کدگذاری است.

Unicode لیستی از حروف است که دارای اعداد دهانه منحصر به فرد (کد نقطه) است. A = 65،B = 66،C = 67،....

این لیست اعداد دهانه نشان‌دهنده رشته "hello" است: 104 101 108 108 111

کدگذاری روشی است که این اعداد را به اعداد دودویی تبدیل می‌کند تا در کامپیوتر ذخیره شوند:

کدگذاری UTF-8 به این شکل (دودویی) "hello" را ذخیره می‌کند: 01101000 01100101 01101100 01101100 01101111

کدگذاریاعداد را به دودویی تبدیل کنید.مجموعه حروفحرف را به عدد تبدیل کنید.

کد حروف UTF-8 HTML5

در جدول زیر لیستی از کدهای حروف UTF-8 که پشتیبانی از آن توسط HTML5 انجام می‌شود آورده شده است:

کد حرف دهانه ده‌دهی
کنترل‌های C0 و Basic Latin 0-127 0000-007F
کنترل‌های C1 و Latin-1 Supplement 128-255 0080-00FF
کyrillic گسترش‌یافته - A 256-383 0100-017F
کyrillic گسترش‌یافته - B 384-591 0180-024F
تغییردهنده‌های فضاسازی 688-767 02B0-02FF
نشان‌های دیاکترویک 768-879 0300-036F
یونانی و کپتیک 880-1023 0370-03FF
کyrillic پایه 1024-1279 0400-04FF
مکمل کyrillic 1280-1327 0500-052F
پونکشن عمومی 8192-8303 2000-206F
نمادهای ارز 8352-8399 20A0-20CF
نمادهای شبیه حروف 8448-8527 2100-214F
پیکان‌ها 8592-8703 2190-21FF
عملگرهای ریاضی 8704-8959 2200-22FF
چاپ‌های جعبه‌ای 9472-9599 2500-257F
عناصر بلوک 9600-9631 2580-259F
شکل‌های هندسی 9632-9727 25A0-25FF
نمادهای متفاوت 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF