ایچ تی ایم ایل یونیکد (یوٹی ایف-8) مراجع میکین
- پائیدار پچھلے ایچ تی ایم ایل نمائش
- پائیدار پہلے لاطینی بنیادیات
Unicode 联盟
Unicode 联盟开发了 Unicode 标准。他们的目标是用其标准的 Unicode 转换格式(UTF)替换现有的字符集。
Unicode 标准已经获得成功,并通过 HTML、XML、Java、JavaScript、电子邮件、ASP、PHP 等得以实现。在许多操作系统和所有现代浏览器中,同样支持 Unicode 标准。
Unicode 联盟与领先的标准开发组织(例如 ISO、W3C 和 ECMA)开展合作。
Unicode 字符集
Unicode 可以通过不同的字符集实现。最常用的编码是 UTF-8 和 UTF-16:
جمعه | 说明 |
---|---|
UTF-8 |
UTF8 中的字符长度可以是 1 到 4 个字节。 UTF-8 可以表示 Unicode 标准中的任何字符。 UTF-8 向后兼容 ASCII。 UTF-8 是电子邮件和网页的首选编码 |
UTF-16 |
فرمت تبدیل Unicode 16 بیتی یک کدگذاری کاری طولانیتر از Unicode است، که میتواند تمام کاری از مجموعه حروف Unicode را کدگذاری کند. UTF-16 برای سیستمعاملها و محیطهای اصلی استفاده میشود، مانند Microsoft Windows، Java و .NET. |
نکته:پیشنویس 128 حرف اول Unicode (با ASCII یکی به یکی مطابقت دارد) با یک بایت هشتبیتی کدگذاری میشود، این بایت هشتبیتی دارای ارزش بیتی مشابه ASCII است، بنابراین متن ASCII معتبر نیز کدگذاری UTF-8 معتبر Unicode است.
تذکر:HTML 4 UTF-8 را پشتیبانی میکند. HTML 5 UTF-8 و UTF-16 را پشتیبانی میکند!
استاندارد HTML5: Unicode UTF-8
به دلیل اینکه اندازه مجموعه حروف ISO-8859 محدود است و با محیطهای چند زبانه سازگار نیست، اتحادیه Unicode استاندارد Unicode را توسعه داد.
استاندارد Unicode (تقریباً) همه حروف، علامتهای نگارشی و علامتهای نشانهگذاری جهان را پوشش میدهد.
Unicode پشتیبانی از پردازش، ذخیره و انتقال متن مستقل از پلتفرم و زبان را ارائه میدهد.
کدگذاری پیشفرض HTML5 UTF-8 است.
اگر مجموعه حروف وبسایت HTML5 از UTF-8 متفاوت باشد، باید این مجموعه حروف را در برچسب <meta> مشخص کنید، به عنوان مثال:
مثال
<meta charset="ISO-8859-1">
تفاوت بین Unicode و UTF-8
Unicode یک مجموعه حروف است. UTF-8 یک کدگذاری است.
Unicode لیستی از حروف است که دارای اعداد دهی منحصر به فرد (کد نقطه) هستند. A = 65،B = 66،C = 67،...
این لیست دهی اعداد این دنباله حروف "hello" را نشان میدهد: 104 101 108 108 111
کدگذاری روشی است که این اعداد را به اعداد بیتی تبدیل میکند تا در کامپیوتر ذخیره شوند:
کدگذاری UTF-8 "hello" را به این صورت (بیتی) ذخیره میکند: 01101000 01100101 01101100 01101100 01101111
کدگذاریاعداد را به بیتی تبدیل کنید.جمعهحرف را به عدد تبدیل کنید.
کد حرف UTF-8 HTML5
لیسٹ زیر چند کد حرف UTF-8 است که HTML5 پشتیبانی میکند:
کد حرف | دهی | هیکسادس |
---|---|---|
کنٹرولز C0 اور لاتین بنیادی | 0-127 | 0000-007F |
کنٹرولز اور لاتین-1 سپلمنٹ | 128-255 | 0080-00FF |
لاطینی وسعت ا | 256-383 | 0100-017F |
لاطینی وسعت ب | 384-591 | 0180-024F |
اسپیسنگ مودیفائرس | 688-767 | 02B0-02FF |
دیاکریٹک مارک | 768-879 | 0300-036F |
یونانی اور کپتک | 880-1023 | 0370-03FF |
سرلیک بنیادی | 1024-1279 | 0400-04FF |
سرلیک سگمینٹ | 1280-1327 | 0500-052F |
عام پرنکشن | 8192-8303 | 2000-206F |
کوئنٹائی نمائش آئیکن | 8352-8399 | 20A0-20CF |
لیٹر سائز نمائش آئیکن | 8448-8527 | 2100-214F |
اروز | 8592-8703 | 2190-21FF |
ریاضی آپریٹرز | 8704-8959 | 2200-22FF |
بکس ڈرائنگس | 9472-9599 | 2500-257F |
بلاک عناصر | 9600-9631 | 2580-259F |
جغرافیائی شکل | 9632-9727 | 25A0-25FF |
مختلف نمائش آئیکن | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- پائیدار پچھلے ایچ تی ایم ایل نمائش
- پائیدار پہلے لاطینی بنیادیات