دستورالعملهای مرجع Unicode (UTF-8) HTML
- صفحه قبلی نمادهای HTML
- صفحه بعدی اساسهای لاتین
اتحادیه Unicode
اتحادیه Unicode استاندارد Unicode را توسعه داده است. هدف آن جایگزینی مجموعههای موجود با استاندارد تبدیل Unicode (UTF) است.
استاندارد Unicode با موفقیت به اجرا درآمده و از طریق HTML، XML، Java، JavaScript، ایمیل، ASP، PHP و غیره استفاده شده است. در بسیاری از سیستمعاملها و تمامی مرورگرهای مدرن، استاندارد Unicode نیز پشتیبانی میشود.
اتحادیه Unicode با سازمانهای توسعه استانداردهای پیشرو (مثل ISO، W3C و ECMA) همکاری میکند.
مجموعههای Unicode
Unicode میتواند از طریق مجموعههای مختلف کاراکترهای مختلفی به وجود آید. کدگذاریهای رایج UTF-8 و UTF-16 هستند:
جمعه | توضیحات |
---|---|
UTF-8 |
طول کاراکترهای UTF-8 میتواند بین 1 تا 4 بایت باشد. UTF-8 میتواند هر کدام از کاراکترهای استاندارد Unicode را نمایش دهد. UTF-8 باقیمانده ASCII است. UTF-8 کد مورد علاقه ایمیل و وب است |
UTF-16 |
قالب تبدیل Unicode 16 بیتی یک کدگذاری متغیر طول برای Unicode است که میتواند تمام مجموعههای Unicode را کدگذاری کند. UTF-16 برای سیستمعاملها و محیطهای اصلی استفاده میشود، به عنوان مثال Microsoft Windows، Java و .NET. |
توضیح:پیشنویس اولیه Unicode، 128 حرف اول (که با ASCII یک به یک مطابقت دارند) را با یک بایت هشتبیتی کدگذاری میکند، این بایتهای هشتبیتی دارای ارزش دودویی مشابه ASCII هستند، بنابراین متنهای ASCII معتبر نیز به عنوان کدگذاری UTF-8 معتبر محسوب میشوند.
توضیح:HTML 4 UTF-8 را پشتیبانی میکند. HTML 5 UTF-8 و UTF-16 را پشتیبانی میکند!
استاندارد HTML5: Unicode UTF-8
به دلیل محدودیتهای اندازه مجموعه حروف در ISO-8859 و ناخوانایی آن در محیطهای چند زبانه، اتحادیه Unicode استاندارد Unicode را توسعه داد.
استاندارد Unicode (تقریباً) همه حروف، علامتهای نگارشی و نمادهای جهان را پوشش میدهد.
Unicode پشتیبانی از پردازش، ذخیره و انتقال متن مستقل از پلتفرم و زبان را فراهم میکند.
کدگذاری پیشفرض HTML5 UTF-8 است.
اگر مجموعه حروف مورد استفاده در وبسایت HTML5 با UTF-8 متفاوت باشد، باید این مجموعه را در برچسب <meta> مشخص کنید، به عنوان مثال:
مثال
<meta charset="ISO-8859-1">
متفاوت بودن Unicode و UTF-8
Unicode یک مجموعه از حروف است. UTF-8 یک کدگذاری است.
Unicode لیستی از حروف است که هر کدام دارای عدد دهانه منحصر به فرد (کد نقطه) هستند. A = 65،B = 66،C = 67،....
این لیست دهانهای اعداد، رشته "hello" را نشان میدهد: 104 101 108 108 111
کدگذاری روشی است که این اعداد را به اعداد دودویی تبدیل میکند تا در کامپیوتر ذخیره شوند:
کدگذاری UTF-8 به این صورت (دودویی) ذخیره میکند: "hello": 01101000 01100101 01101100 01101100 01101111
کدگذاریتغییر عدد به دودویی.جمعهتغییر حرف به عدد.
کدهای UTF-8 HTML5
لیست زیر شامل برخی از کدهای UTF-8 پشتیبانی شده توسط HTML5 است:
کد حرف | دهانه | دهدهی |
---|---|---|
کنترلهای C0 و Latin | 0-127 | 0000-007F |
کنترلهای C1 و افزونههای Latin-1 | 128-255 | 0080-00FF |
لاتین گسترشیافته - A | 256-383 | 0100-017F |
لاتین گسترشیافته - B | 384-591 | 0180-024F |
تغییرات فضاسازی | 688-767 | 02B0-02FF |
علامتهای تأکیدی | 768-879 | 0300-036F |
یونانی و کپتیک | 880-1023 | 0370-03FF |
کyrillic پایه | 1024-1279 | 0400-04FF |
اضافههای کyrillic | 1280-1327 | 0500-052F |
علامتهای عمومی | 8192-8303 | 2000-206F |
نمادهای ارزی | 8352-8399 | 20A0-20CF |
نمادهای شبیه حروف | 8448-8527 | 2100-214F |
پیکانها | 8592-8703 | 2190-21FF |
عملگرهای ریاضی | 8704-8959 | 2200-22FF |
طرحهای جعبهای | 9472-9599 | 2500-257F |
عناصر بلوکی | 9600-9631 | 2580-259F |
شکلهای هندسی | 9632-9727 | 25A0-25FF |
نمادهای متفاوت | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- صفحه قبلی نمادهای HTML
- صفحه بعدی اساسهای لاتین