دستورالعمل مرجع Unicode (UTF-8) HTML
- صفحه قبلی نمادهای HTML
- صفحه بعدی اساسهای لاتین
اتحادیهیونیکد
اتحادیهیونیکداستانداردیونیکدراتوسعه دادهاست. هدفآناستکهبااستفادهازفرمتهایتبدیلیونیکداستاندارد(UTF)گروههاینشانهایموجودراجایگزینکند.
استانداردیونیکدبا موفقیتدریافتواز طریق HTML،XML،Java،JavaScript،ایمیل،ASP،PHPوغیرهایکهاجراشدهاستبهکاررفتهاست. دربسیاریازسیستمعاملهاوهمهیمرورگرهایمعمولی،استانداردیونیکدپشتیبانیمیشود.
اتحادیهیونیکدباسازمانهایتوسعهیاستانداردهایبرجسته(مثلاً ISO،W3CوECMA)همکاریمیکند.
گروههاییونیکد
یونیکدمیتواندباراههایمختلفازگروههاینشانهاایجادشود. رایجترینکدهاUTF-8وUTF-16هستند:
مجموعه حروف | توضیحات |
---|---|
UTF-8 |
طولنشانها در UTF8 میتواند بین1تا4بایتباشد. UTF-8 میتواند هرگونهنشاندراستانداردیونیکدرانشاندهد. UTF-8 بهعنوانیکهباASCIIقابلمطابقتاستاستفادهمیشود. UTF-8 بهعنوانکدمستندایبرایایمیلووبپایاننویسیاست. |
UTF-16 |
فرمت تبدیل Unicode 16بیتی کدگذاری متغیر طولی Unicode است که میتواند تمام مجموعه حروف Unicode را کدگذاری کند. UTF-16 برای سیستمعاملها و محیطهای اصلی استفاده میشود، مانند Microsoft Windows، Java و .NET. |
نکته:پیشنویس 128 حرف اول Unicode (که با ASCII یک به یک مطابقت دارد) با استفاده از یک بایت هشتبیتی کدگذاری میشود، این بایت هشتبیتی دارای ارزش دودویی مشابه ASCII است، بنابراین متن ASCII مؤثر نیز کدگذاری UTF-8 مؤثر Unicode است.
توجه:HTML 4 UTF-8 را پشتیبانی میکند. HTML 5 UTF-8 و UTF-16 را پشتیبانی میکند!
استاندارد HTML5: Unicode UTF-8
به دلیل محدودیتهای اندازه مجموعه حروف در ISO-8859 و ناخوانایی آن در محیطهای چند زبانه، اتحادیه Unicode استاندارد Unicode را توسعه داد.
استاندارد Unicode (تقریباً) همه حروف، علامتهای نگارشی و نشانهها در جهان را پوشش میدهد.
Unicode پشتیبانی از پردازش، ذخیره و انتقال متن مستقل از پلتفرم و زبان را ارائه میدهد.
کدگذاری پیشفرض HTML5 UTF-8 است.
اگر مجموعه حروف وبسایت HTML5 از UTF-8 متفاوت باشد، باید این مجموعه حروف در برچسب <meta> مشخص شود، به عنوان مثال:
مثال
<meta charset="ISO-8859-1">
تفاوت بین Unicode و UTF-8
Unicode مجموعه حروف است. UTF-8 کدگذاری است.
Unicode لیستی از حروف است که دارای اعداد دهانه منحصر به فرد (کد نقطه) است. A = 65،B = 66،C = 67،....
این لیست اعداد دهانه نشاندهنده رشته "hello" است: 104 101 108 108 111
کدگذاری روشی است که این اعداد را به اعداد دودویی تبدیل میکند تا در کامپیوتر ذخیره شوند:
کدگذاری UTF-8 به این شکل (دودویی) "hello" را ذخیره میکند: 01101000 01100101 01101100 01101100 01101111
کدگذاریاعداد را به دودویی تبدیل کنید.مجموعه حروفحرف را به عدد تبدیل کنید.
کد حروف UTF-8 HTML5
در جدول زیر لیستی از کدهای حروف UTF-8 که پشتیبانی از آن توسط HTML5 انجام میشود آورده شده است:
کد حرف | دهانه | دهدهی |
---|---|---|
کنترلهای C0 و Basic Latin | 0-127 | 0000-007F |
کنترلهای C1 و Latin-1 Supplement | 128-255 | 0080-00FF |
کyrillic گسترشیافته - A | 256-383 | 0100-017F |
کyrillic گسترشیافته - B | 384-591 | 0180-024F |
تغییردهندههای فضاسازی | 688-767 | 02B0-02FF |
نشانهای دیاکترویک | 768-879 | 0300-036F |
یونانی و کپتیک | 880-1023 | 0370-03FF |
کyrillic پایه | 1024-1279 | 0400-04FF |
مکمل کyrillic | 1280-1327 | 0500-052F |
پونکشن عمومی | 8192-8303 | 2000-206F |
نمادهای ارز | 8352-8399 | 20A0-20CF |
نمادهای شبیه حروف | 8448-8527 | 2100-214F |
پیکانها | 8592-8703 | 2190-21FF |
عملگرهای ریاضی | 8704-8959 | 2200-22FF |
چاپهای جعبهای | 9472-9599 | 2500-257F |
عناصر بلوک | 9600-9631 | 2580-259F |
شکلهای هندسی | 9632-9727 | 25A0-25FF |
نمادهای متفاوت | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- صفحه قبلی نمادهای HTML
- صفحه بعدی اساسهای لاتین