ایچ تی ایم ایل یونیکد (یوٹی ایف-8) مراجع میکین

Unicode 联盟

Unicode 联盟开发了 Unicode 标准。他们的目标是用其标准的 Unicode 转换格式(UTF)替换现有的字符集。

Unicode 标准已经获得成功,并通过 HTML、XML、Java、JavaScript、电子邮件、ASP、PHP 等得以实现。在许多操作系统和所有现代浏览器中,同样支持 Unicode 标准。

Unicode 联盟与领先的标准开发组织(例如 ISO、W3C 和 ECMA)开展合作。

Unicode 字符集

Unicode 可以通过不同的字符集实现。最常用的编码是 UTF-8 和 UTF-16:

جمعه 说明
UTF-8

UTF8 中的字符长度可以是 1 到 4 个字节。

UTF-8 可以表示 Unicode 标准中的任何字符。

UTF-8 向后兼容 ASCII。 UTF-8 是电子邮件和网页的首选编码

UTF-16

فرمت تبدیل Unicode 16 بیتی یک کدگذاری کاری طولانی‌تر از Unicode است، که می‌تواند تمام کاری از مجموعه حروف Unicode را کدگذاری کند.

UTF-16 برای سیستم‌عامل‌ها و محیط‌های اصلی استفاده می‌شود، مانند Microsoft Windows، Java و .NET.

نکته:پیش‌نویس 128 حرف اول Unicode (با ASCII یکی به یکی مطابقت دارد) با یک بایت هشت‌بیتی کدگذاری می‌شود، این بایت هشت‌بیتی دارای ارزش بیتی مشابه ASCII است، بنابراین متن ASCII معتبر نیز کدگذاری UTF-8 معتبر Unicode است.

تذکر:HTML 4 UTF-8 را پشتیبانی می‌کند. HTML 5 UTF-8 و UTF-16 را پشتیبانی می‌کند!

استاندارد HTML5: Unicode UTF-8

به دلیل اینکه اندازه مجموعه حروف ISO-8859 محدود است و با محیط‌های چند زبانه سازگار نیست، اتحادیه Unicode استاندارد Unicode را توسعه داد.

استاندارد Unicode (تقریباً) همه حروف، علامت‌های نگارشی و علامت‌های نشانه‌گذاری جهان را پوشش می‌دهد.

Unicode پشتیبانی از پردازش، ذخیره و انتقال متن مستقل از پلتفرم و زبان را ارائه می‌دهد.

کدگذاری پیش‌فرض HTML5 UTF-8 است.

اگر مجموعه حروف وب‌سایت HTML5 از UTF-8 متفاوت باشد، باید این مجموعه حروف را در برچسب <meta> مشخص کنید، به عنوان مثال:

مثال

<meta charset="ISO-8859-1">

تفاوت بین Unicode و UTF-8

Unicode یک مجموعه حروف است. UTF-8 یک کدگذاری است.

Unicode لیستی از حروف است که دارای اعداد دهی منحصر به فرد (کد نقطه) هستند. A = 65،B = 66،C = 67،...

این لیست دهی اعداد این دنباله حروف "hello" را نشان می‌دهد: 104 101 108 108 111

کدگذاری روشی است که این اعداد را به اعداد بیتی تبدیل می‌کند تا در کامپیوتر ذخیره شوند:

کدگذاری UTF-8 "hello" را به این صورت (بیتی) ذخیره می‌کند: 01101000 01100101 01101100 01101100 01101111

کدگذاریاعداد را به بیتی تبدیل کنید.جمعهحرف را به عدد تبدیل کنید.

کد حرف UTF-8 HTML5

لیسٹ زیر چند کد حرف UTF-8 است که HTML5 پشتیبانی می‌کند:

کد حرف دهی هیکسادس
کنٹرولز C0 اور لاتین بنیادی 0-127 0000-007F
کنٹرولز اور لاتین-1 سپلمنٹ 128-255 0080-00FF
لاطینی وسعت ا 256-383 0100-017F
لاطینی وسعت ب 384-591 0180-024F
اسپیسنگ مودیفائرس 688-767 02B0-02FF
دیاکریٹک مارک 768-879 0300-036F
یونانی اور کپتک 880-1023 0370-03FF
سرلیک بنیادی 1024-1279 0400-04FF
سرلیک سگمینٹ 1280-1327 0500-052F
عام پرنکشن 8192-8303 2000-206F
کوئنٹائی نمائش آئیکن 8352-8399 20A0-20CF
لیٹر سائز نمائش آئیکن 8448-8527 2100-214F
اروز 8592-8703 2190-21FF
ریاضی آپریٹرز 8704-8959 2200-22FF
بکس ڈرائنگس 9472-9599 2500-257F
بلاک عناصر 9600-9631 2580-259F
جغرافیائی شکل 9632-9727 25A0-25FF
مختلف نمائش آئیکن 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF