Референсное руководство по HTML Unicode (UTF-8)
- Предыдущая страница Символы HTML
- Следующая страница Основы латинского языка
Ассоциация Unicode
Ассоциация Unicode разработала стандарт Unicode. Целью является замена существующих наборов символов стандартом Unicode преобразования (UTF).
Стандарт Unicode уже достиг успеха и был реализован через HTML, XML, Java, JavaScript, электронную почту, ASP, PHP и т.д. В множестве операционных систем и всех современных браузерах поддерживается стандарт Unicode.
Ассоциация Unicode сотрудничает с ведущими организациями по разработке стандартов (например, ISO, W3C и ECMA).
Набор символов Unicode
Unicode может быть реализован через различные наборы символов. Самыми распространенными кодировками являются UTF-8 и UTF-16:
Символьный набор | Описание |
---|---|
UTF-8 |
Длина символов в UTF-8 может варьироваться от 1 до 4 байт. UTF-8 может представлять любые символы стандарта Unicode. UTF-8 совместим с ASCII. UTF-8 является предпочтительным кодированием для электронной почты и веб-страниц. |
UTF-16 |
Формат кодирования Unicode 16 бит - это переменной длины кодирование символов Unicode, которое может кодировать весь репертуар Unicode. UTF-16 используется в основных операционных системах и средах, таких как Microsoft Windows, Java и .NET. |
Комментарий:Первые 128 символов Unicode (соответствуют ASCII) кодируются одним байтом, у которого двоичный код совпадает с ASCII, что делает эффективный ASCII текст также эффективным кодированием UTF-8 Unicode.
Совет:HTML 4 поддерживает UTF-8. HTML 5 поддерживает UTF-8 и UTF-16!
Стандарт HTML5: Unicode UTF-8
Из-за ограниченного размера набора символов в ISO-8859 и его несовместимости с многоязыковой средой, Unicode同盟 разработал стандарт Unicode.
Стандарт Unicode (почти) охватывает все символы, знаки и символы в мире.
Unicode поддерживает обработку, хранение и передачу текста, независимые от платформы и языка.
Стандарт HTML5 использует в качестве-default кодирования UTF-8.
Если字符ный набор веб-страницы HTML5 не отличается от UTF-8, то应该在 метке <meta> указать этот набор символов, например:
Пример
<meta charset="ISO-8859-1">
Разница между Unicode и UTF-8
Unicode - это символный набор. UTF-8 - это кодирование.
Unicode - это список символов с уникальными десятичными числами (кодами точек). A = 65, B = 66, C = 67, ...
Этот список десятичных чисел представляет строку "hello": 104 101 108 108 111
Кодирование - это способ преобразования этих чисел в двоичные числа для хранения в компьютере:
UTF-8 кодирование будет хранить "hello" следующим образом (двоичный код): 01101000 01100101 01101100 01101100 01101111
КодированиеПреобразование числа в двоичное.Символьный наборПреобразование символа в число.
UTF-8 коды символов в HTML5
Ниже приведен список некоторых UTF-8 кодов символов, поддерживаемых HTML5:
Код символа | Десятичное число | Шестнадцатеричное число |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Пробельные модификаторы | 688-767 | 02B0-02FF |
Дiacritical Marks | 768-879 | 0300-036F |
Греческие и коптские символы | 880-1023 | 0370-03FF |
Основные символы кириллицы | 1024-1279 | 0400-04FF |
Дополнительные символы к кириллице | 1280-1327 | 0500-052F |
Общие знаки препинания | 8192-8303 | 2000-206F |
Символы валют | 8352-8399 | 20A0-20CF |
Символы, напоминающие буквы | 8448-8527 | 2100-214F |
Стрелки | 8592-8703 | 2190-21FF |
Математические операторы | 8704-8959 | 2200-22FF |
Рисунки рамок | 9472-9599 | 2500-257F |
Блочные элементы | 9600-9631 | 2580-259F |
Геометрические фигуры | 9632-9727 | 25A0-25FF |
Различные символы | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Предыдущая страница Символы HTML
- Следующая страница Основы латинского языка