زبان‌های HTML

برای نمایش صحیح صفحه HTML، مرورگر باید مجموعه حروف (کدگذاری) مورد استفاده را بداند:

مثال

<meta charset="UTF-8">

زبان‌های HTML

规范 HTML5 از توسعه‌دهندگان وب تشویق می‌کند تا از مجموعه حروف UTF-8 استفاده کنند!

اما همیشه اینطور نبوده است. در اوایل وب، کدگذاری حروف ASCII استفاده می‌شد.

بعداً، از HTML 2.0 تا HTML 4.01، ISO-8859-1 به عنوان مجموعه استاندارد در نظر گرفته می‌شد.

با ظهور XML و HTML5، UTF-8 نهایتاً به بازار آمد و بسیاری از مشکلات کدگذاری حروف را حل کرد.

در ابتدا: ASCII

داده‌های کامپیوتری به عنوان کد دودویی (01000101) در دستگاه‌های الکترونیکی ذخیره می‌شوند.

برای استانداردسازی ذخیره‌سازی متن، کد استاندارد تبادل اطلاعات امریکایی (American Standard Code for Information Interchange، ASCII) ایجاد شد. این کد برای هر کاراکتر قابل ذخیره تعریف یک عدد باینری منحصر به فرد دارد تا شامل اعداد 0-9، حروف بزرگ و کوچک (a-z، A-Z) و کاراکترهای خاص (مثل ! $ + - ( ) @ < > ,) باشد.

به دلیل اینکه ASCII از 7 بیت کاراکتر استفاده می‌کند، فقط می‌تواند 128 حرف مختلف را نمایش دهد.

بزرگترین نقص ASCII این است که حروف غیرانگلیسی را حذف می‌کند.

امروزه ASCII همچنان استفاده می‌شود، به ویژه در سیستم‌های کامپیوتری بزرگ.

برای تحقیقات بیشتر، لطفاً به پایگاه کامل ASCII

در ویندوز: Windows-1252

Windows-1252 مجموعه‌ای است که به عنوان مجموعه پیش‌فرض در ویندوز (تا ویندوز 95) استفاده می‌شود.

این ASCII‌ایست که بین‌المللی‌ترین حروف را افزایش داده است.

این از یک بایت کامل (8 بیت) برای نمایش 256 حرف مختلف استفاده می‌کند.

به دلیل اینکه Windows-1252 تنظیم پیش‌فرض در ویندوز است، تمام مرورگرها از آن پشتیبانی می‌کنند.

برای تحقیقات بیشتر، لطفاً به پایگاه کامل Windows-1252

در HTML 4: ISO-8859-1

در HTML 4، مجموعه‌ای که بیشترین استفاده را دارد ISO-8859-1 است.

ISO-8859-1 ASCII‌ایست که بین‌المللی‌ترین حروف را افزایش داده است.

مثال

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

در HTML 4، می‌توان در برچسب <meta> زبان‌های مختلفی از ISO-8859-1 مشخص کرد:

مثال

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

همه‌ی پردازش‌گرهای HTML 4 نیز از UTF-8 پشتیبانی می‌کنند:

مثال

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

توجه:وقتی مرورگر ISO-8859-1 را تشخیص می‌دهد، معمولاً به Windows-1252 تبدیل می‌شود، زیرا Windows-1252 32 کاراکتر بین‌المللی دارد.

برای تحقیقات بیشتر، لطفاً به منابع کامل ISO-8859-1

در HTML5: Unicode UTF-8

استاندارد HTML5 تشویق به استفاده از زبان‌های UTF-8 است.

مثال

<meta charset="UTF-8">

می‌توان در برچسب <meta> زبان‌های مختلفی از UTF-8 مشخص کرد:

مثال

<meta charset="ISO-8859-1">

اتحادیه‌ی Unicode استانداردهای UTF-8 و UTF-16 را توسعه داده است، زیرا مجموعه‌ی کاراکتر ISO-8859 محدود است و با محیط‌های چند زبانه‌ی مختلف سازگار نیست.

استاندارد Unicode (تقریباً) همه‌ی کاراکترها، علامت‌ها و نشانه‌های جهان را پوشش می‌دهد.

توجه:همه‌ی پردازش‌گرهای HTML5 و XML از UTF-8، UTF-16، Windows-1252 و ISO-8859 پشتیبانی می‌کنند.

برای تحقیقات بیشتر، لطفاً به منابع کامل Unicode