Референсное руководство по HTML Unicode (UTF-8)

Ассоциация Unicode

Ассоциация Unicode разработала стандарт Unicode. Целью является замена существующих наборов символов стандартом Unicode преобразования (UTF).

Стандарт Unicode уже достиг успеха и был реализован через HTML, XML, Java, JavaScript, электронную почту, ASP, PHP и т.д. В множестве операционных систем и всех современных браузерах поддерживается стандарт Unicode.

Ассоциация Unicode сотрудничает с ведущими организациями по разработке стандартов (например, ISO, W3C и ECMA).

Набор символов Unicode

Unicode может быть реализован через различные наборы символов. Самыми распространенными кодировками являются UTF-8 и UTF-16:

Символьный набор Описание
UTF-8

Длина символов в UTF-8 может варьироваться от 1 до 4 байт.

UTF-8 может представлять любые символы стандарта Unicode.

UTF-8 совместим с ASCII. UTF-8 является предпочтительным кодированием для электронной почты и веб-страниц.

UTF-16

Формат кодирования Unicode 16 бит - это переменной длины кодирование символов Unicode, которое может кодировать весь репертуар Unicode.

UTF-16 используется в основных операционных системах и средах, таких как Microsoft Windows, Java и .NET.

Комментарий:Первые 128 символов Unicode (соответствуют ASCII) кодируются одним байтом, у которого двоичный код совпадает с ASCII, что делает эффективный ASCII текст также эффективным кодированием UTF-8 Unicode.

Совет:HTML 4 поддерживает UTF-8. HTML 5 поддерживает UTF-8 и UTF-16!

Стандарт HTML5: Unicode UTF-8

Из-за ограниченного размера набора символов в ISO-8859 и его несовместимости с многоязыковой средой, Unicode同盟 разработал стандарт Unicode.

Стандарт Unicode (почти) охватывает все символы, знаки и символы в мире.

Unicode поддерживает обработку, хранение и передачу текста, независимые от платформы и языка.

Стандарт HTML5 использует в качестве-default кодирования UTF-8.

Если字符ный набор веб-страницы HTML5 не отличается от UTF-8, то应该在 метке <meta> указать этот набор символов, например:

Пример

<meta charset="ISO-8859-1">

Разница между Unicode и UTF-8

Unicode - это символный набор. UTF-8 - это кодирование.

Unicode - это список символов с уникальными десятичными числами (кодами точек). A = 65, B = 66, C = 67, ...

Этот список десятичных чисел представляет строку "hello": 104 101 108 108 111

Кодирование - это способ преобразования этих чисел в двоичные числа для хранения в компьютере:

UTF-8 кодирование будет хранить "hello" следующим образом (двоичный код): 01101000 01100101 01101100 01101100 01101111

КодированиеПреобразование числа в двоичное.Символьный наборПреобразование символа в число.

UTF-8 коды символов в HTML5

Ниже приведен список некоторых UTF-8 кодов символов, поддерживаемых HTML5:

Код символа Десятичное число Шестнадцатеричное число
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Пробельные модификаторы 688-767 02B0-02FF
Дiacritical Marks 768-879 0300-036F
Греческие и коптские символы 880-1023 0370-03FF
Основные символы кириллицы 1024-1279 0400-04FF
Дополнительные символы к кириллице 1280-1327 0500-052F
Общие знаки препинания 8192-8303 2000-206F
Символы валют 8352-8399 20A0-20CF
Символы, напоминающие буквы 8448-8527 2100-214F
Стрелки 8592-8703 2190-21FF
Математические операторы 8704-8959 2200-22FF
Рисунки рамок 9472-9599 2500-257F
Блочные элементы 9600-9631 2580-259F
Геометрические фигуры 9632-9727 25A0-25FF
Различные символы 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF