یوٹی ایف-8 سی او کنٹرول سیمبل اور بنیادی لاطینی حروف

یونیکد یونین

یونیکد یونین نے یونیکد اسٹینڈرڈ کا فروغ کیا ہے۔ ان کا مقصد اسٹینڈرڈ کا یونیکد تبدیل فورمات (UTF) موجودہ کیرکٹ کا تبادلہ کرنا ہے

یونیکد اسٹینڈرڈ کامیابی حاصل کرچکا ہے اور HTML، XML، Java، JavaScript، ای میل، ASP، PHP وغیرہ کے ذریعے نافذ ہوچکا ہے۔ کئی آپریٹنگ سسٹمز اور تمام جدید بروزرز میں یونیکد اسٹینڈرڈ کا سپورٹ ہے

یونیکد یونین اور لیڈنگ اسٹینڈرڈ ڈیولپمنٹ آرگنائزیشن (مثلاً ISO، W3C اور ECMA) کے ساتھ تعاون کرتی ہے

یونیکد کیرکٹ

یونیکد کسی بھی کیرکٹ کا حرف نمائش کرسکتا ہے۔ سب سے زیادہ استعمال میں آنے والا کد UTF-8 اور UTF-16 ہے:

جمعه حروف شرح
UTF-8

UTF8 میں حرف کی لمبائی 1 سے 4 بائٹس تک ہو سکتی ہے

UTF-8 میں کسی بھی یونیکد کا حرف نمائش کرسکتا ہے

UTF-8 بائدهمASCII ہے۔ UTF-8 ای میل اور ویب پیج کا ترجیحی کد ہے

UTF-16

فرمت تبدیل Unicode 16 بیتی، کدگذاری متغیر طولی Unicode است که می‌تواند تمام مجموعه Unicode را کدگذاری کند.

UTF-16 برای سیستم‌عامل‌ها و محیط‌های اصلی استفاده می‌شود، به عنوان مثال Microsoft Windows، Java و .NET.

توضیح:ابتدا 128 حرف Unicode (که با ASCII یکی به یکی مطابقت دارند) با استفاده از یک بایت هشت‌بیتی کدگذاری می‌شوند، این بایتی‌ها دارای ارزش بیتی مشابه ASCII هستند، بنابراین متن‌های ASCII موثر نیز کدگذاری UTF-8 موثر هستند.

توضیح:HTML 4 UTF-8 را پشتیبانی می‌کند. HTML 5 UTF-8 و UTF-16 را پشتیبانی می‌کند!

استاندارد HTML5: Unicode UTF-8

به دلیل اینکه اندازه مجموعه حروف ISO-8859 محدود است و با محیط‌های چند زبانه سازگار نیست، اتحادیه Unicode استاندارد Unicode را توسعه داد.

استاندارد Unicode (تقریباً) همه حروف، علامت‌های نگارشی و نمادهای جهان را پوشش می‌دهد.

Unicode پشتیبانی از پردازش، ذخیره و انتقال متن مستقل از پلتفرم و زبان را فراهم می‌کند.

کدگذاری پیش‌فرض HTML5 UTF-8 است.

اگر مجموعه حروف وب‌سایت HTML5 از UTF-8 متفاوت باشد، باید این مجموعه حروف را در برچسب <meta> مشخص کنید، به عنوان مثال:

مثال

<meta charset="ISO-8859-1">

تفاوت بین Unicode و UTF-8

Unicode جمعه حروف است. UTF-8 کدگذاری است.

Unicode لیستی از حروف است که هر کدام دارای عدد یکتا دوازده رقمی (کد نقطه) هستند. A = 65،B = 66،C = 67،....

این لیست اعداد دوازده رقمی، رشته "hello" را نشان می‌دهد: 104 101 108 108 111

کدگذاری روشی است که این اعداد را به اعداد بیتی تبدیل می‌کند تا در کامپیوتر ذخیره شوند:

کدگذاری UTF-8 به این شکل (بیتی) "hello" را ذخیره می‌کند: 01101000 01100101 01101100 01101100 01101111

کدگذاریاعداد را به بیتی تبدیل کنید.جمعه حروفحرف را به عدد تبدیل کنید.

کد حروف UTF-8 HTML5

لیکلیست زیر تعدادی از کد حروف UTF-8 پشتیبانی شده توسط HTML5 است:

کد حرف دوازده رقمی شصت و دو رقمی
کنٹرولس و بیسیک لاتین 0-127 0000-007F
کنٹرولس و لاتین-1 سپلمنٹ 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF