دستورالعمل‌های مرجع Unicode (UTF-8) HTML

اتحادیه Unicode

اتحادیه Unicode استاندارد Unicode را توسعه داده است. هدف آن جایگزینی مجموعه‌های موجود با استاندارد تبدیل Unicode (UTF) است.

استاندارد Unicode با موفقیت به اجرا درآمده و از طریق HTML، XML، Java، JavaScript، ایمیل، ASP، PHP و غیره استفاده شده است. در بسیاری از سیستم‌عامل‌ها و تمامی مرورگرهای مدرن، استاندارد Unicode نیز پشتیبانی می‌شود.

اتحادیه Unicode با سازمان‌های توسعه استانداردهای پیشرو (مثل ISO، W3C و ECMA) همکاری می‌کند.

مجموعه‌های Unicode

Unicode می‌تواند از طریق مجموعه‌های مختلف کاراکترهای مختلفی به وجود آید. کدگذاری‌های رایج UTF-8 و UTF-16 هستند:

جمعه توضیحات
UTF-8

طول کاراکترهای UTF-8 می‌تواند بین 1 تا 4 بایت باشد.

UTF-8 می‌تواند هر کدام از کاراکترهای استاندارد Unicode را نمایش دهد.

UTF-8 باقیمانده ASCII است. UTF-8 کد مورد علاقه ایمیل و وب است

UTF-16

قالب تبدیل Unicode 16 بیتی یک کدگذاری متغیر طول برای Unicode است که می‌تواند تمام مجموعه‌های Unicode را کدگذاری کند.

UTF-16 برای سیستم‌عامل‌ها و محیط‌های اصلی استفاده می‌شود، به عنوان مثال Microsoft Windows، Java و .NET.

توضیح:پیش‌نویس اولیه Unicode، 128 حرف اول (که با ASCII یک به یک مطابقت دارند) را با یک بایت هشت‌بیتی کدگذاری می‌کند، این بایت‌های هشت‌بیتی دارای ارزش دودویی مشابه ASCII هستند، بنابراین متن‌های ASCII معتبر نیز به عنوان کدگذاری UTF-8 معتبر محسوب می‌شوند.

توضیح:HTML 4 UTF-8 را پشتیبانی می‌کند. HTML 5 UTF-8 و UTF-16 را پشتیبانی می‌کند!

استاندارد HTML5: Unicode UTF-8

به دلیل محدودیت‌های اندازه مجموعه حروف در ISO-8859 و ناخوانایی آن در محیط‌های چند زبانه، اتحادیه Unicode استاندارد Unicode را توسعه داد.

استاندارد Unicode (تقریباً) همه حروف، علامت‌های نگارشی و نمادهای جهان را پوشش می‌دهد.

Unicode پشتیبانی از پردازش، ذخیره و انتقال متن مستقل از پلتفرم و زبان را فراهم می‌کند.

کدگذاری پیش‌فرض HTML5 UTF-8 است.

اگر مجموعه حروف مورد استفاده در وب‌سایت HTML5 با UTF-8 متفاوت باشد، باید این مجموعه را در برچسب <meta> مشخص کنید، به عنوان مثال:

مثال

<meta charset="ISO-8859-1">

متفاوت بودن Unicode و UTF-8

Unicode یک مجموعه از حروف است. UTF-8 یک کدگذاری است.

Unicode لیستی از حروف است که هر کدام دارای عدد دهانه منحصر به فرد (کد نقطه) هستند. A = 65،B = 66،C = 67،....

این لیست دهانه‌ای اعداد، رشته "hello" را نشان می‌دهد: 104 101 108 108 111

کدگذاری روشی است که این اعداد را به اعداد دودویی تبدیل می‌کند تا در کامپیوتر ذخیره شوند:

کدگذاری UTF-8 به این صورت (دودویی) ذخیره می‌کند: "hello": 01101000 01100101 01101100 01101100 01101111

کدگذاریتغییر عدد به دودویی.جمعهتغییر حرف به عدد.

کد‌های UTF-8 HTML5

لیست زیر شامل برخی از کد‌های UTF-8 پشتیبانی شده توسط HTML5 است:

کد حرف دهانه ده‌دهی
کنترل‌های C0 و Latin 0-127 0000-007F
کنترل‌های C1 و افزونه‌های Latin-1 128-255 0080-00FF
لاتین گسترش‌یافته - A 256-383 0100-017F
لاتین گسترش‌یافته - B 384-591 0180-024F
تغییرات فضاسازی 688-767 02B0-02FF
علامت‌های تأکیدی 768-879 0300-036F
یونانی و کپتیک 880-1023 0370-03FF
کyrillic پایه 1024-1279 0400-04FF
اضافه‌های کyrillic 1280-1327 0500-052F
علامت‌های عمومی 8192-8303 2000-206F
نمادهای ارزی 8352-8399 20A0-20CF
نمادهای شبیه حروف 8448-8527 2100-214F
پیکان‌ها 8592-8703 2190-21FF
عملگرهای ریاضی 8704-8959 2200-22FF
طرح‌های جعبه‌ای 9472-9599 2500-257F
عناصر بلوکی 9600-9631 2580-259F
شکل‌های هندسی 9632-9727 25A0-25FF
نمادهای متفاوت 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF