Кодировка символов HTML

Для правильного отображения HTML-страницы браузер должен знать используемый набор символов (кодировку):

Пример

<meta charset="UTF-8">

Кодировка символов HTML

Спецификация HTML5 призывает веб-разработчиков использовать набор символов UTF-8!

Однако это не всегда было так. На ранней стадии Web кодировка символов была ASCII.

Позднее, от HTML 2.0 до HTML 4.01, ISO-8859-1 считался стандартным набором символов.

С появлением XML и HTML5, UTF-8 наконец появился и решил многие проблемы кодирования символов.

Вначале: ASCII

Данные компьютера хранятся в электронных устройствах в виде двоичного кода (01000101).

Для стандартизации хранения текста был создан Американский стандартный код для обмена информацией (American Standard Code for Information Interchange, ASCII). Он определяет уникальный двоичный номер для каждого хранимого символа, чтобы поддерживать числа 0-9, строчные и прописные буквы (a-z, A-Z) и специальные символы (например, ! $ + - ( ) @ < > ,).

Поскольку ASCII использует 7-битные символы, он может представлять только 128 различных символов.

Основной недостаток ASCII в том, что он исключает нелатинские буквы.

В настоящее время, ASCII все еще используется, особенно в больших системах вычислительных узлов.

Для более глубокого изучения, пожалуйста, посетите наш Полный справочник ASCII.

В Windows: Windows-1252

Windows-1252 является défautным набором символов в Windows (до Windows 95).

Это расширение ASCII, добавляющее международные символы.

Он использует полный байт (8 бит) для представления 256 различных символов.

Поскольку Windows-1252 является défautным настройкой в Windows, все браузеры поддерживают его.

Для более глубокого изучения, пожалуйста, посетите наш Полный справочник Windows-1252.

В HTML 4: ISO-8859-1

В HTML 4 наиболее часто используемый набор символов - ISO-8859-1.

ISO-8859-1 является расширением ASCII, добавляющим международные символы.

Пример

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

В HTML 4 можно указать другую кодировку, отличную от ISO-8859-1, в теге <meta>:

Пример

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Все процессоры HTML 4 также поддерживают UTF-8:

Пример

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Совет:Когда браузер обнаруживает ISO-8859-1, он обычно по умолчанию использует Windows-1252, так как Windows-1252 имеет 32 международных символа.

Для более глубокого изучения, пожалуйста, посетите наш Полное руководство по ISO-8859-1.

В HTML5: Unicode UTF-8

Стандарт HTML5 поощряет веб-разработчиков использовать кодировку UTF-8.

Пример

<meta charset="UTF-8">

Вы можете указать кодировку, отличную от UTF-8, в теге <meta>:

Пример

<meta charset="ISO-8859-1">

Ассоциация Unicode разработала стандарты UTF-8 и UTF-16, так как набор символов ISO-8859 ограничен и не совместим с многоязыковой средой.

Стандарт Unicode (почти) охватывает все символы, знаки и символы в мире.

Совет:Все HTML5 и XML процессоры поддерживают UTF-8, UTF-16, Windows-1252 и ISO-8859.

Для более глубокого изучения, пожалуйста, посетите наш Полное руководство по Unicode.