Референсное руководство по HTML Unicode (UTF-8)
- Предыдущая страница Символы HTML
- Следующая страница Основы латинского языка
Unicode Consortium
The Unicode Consortium has developed the Unicode standard. Their goal is to replace existing character sets with the Unicode standard's Unicode Transformation Format (UTF).
The Unicode standard has been successful and has been implemented through HTML, XML, Java, JavaScript, email, ASP, PHP, and more. Unicode standards are supported in many operating systems and all modern browsers.
The Unicode Consortium collaborates with leading standard development organizations (such as ISO, W3C, and ECMA).
Unicode Character Set
Unicode can be implemented through different character sets. The most commonly used encodings are UTF-8 and UTF-16:
Черепа | Description |
---|---|
UTF-8 |
The character length in UTF-8 can be from 1 to 4 bytes. UTF-8 can represent any character in the Unicode standard. UTF-8 Compatible with ASCII. UTF-8 is the preferred encoding for email and web pages. |
UTF-16 |
Формат кодирования Unicode 16 бит - это переменной длины кодирование символов Unicode, которое может кодировать весь репертуар Unicode. UTF-16 используется в основных операционных системах и средах, таких как Microsoft Windows, Java и .NET. |
Комментарий:Первые 128 символов Unicode (один к одному соответствуют ASCII) кодируются одним восьмибитным байтом, у которого есть такие же двоичные значения, что делает эффективный ASCII текст также эффективным UTF-8 кодированием Unicode.
Совет:HTML 4 поддерживает UTF-8. HTML 5 поддерживает UTF-8 и UTF-16!
Стандарт HTML5: Unicode UTF-8
Из-за ограничения размера набора символов в ISO-8859 и его несовместимости с многоязыковой средой, Ассоциация Unicode разработала стандарт Unicode.
Стандарт Unicode (почти) охватывает все символы, знаки и символы в мире.
Unicode поддерживает обработку, хранение и передачу текста, независимые от платформы и языка.
Стандартный кодировщик символов в HTML5 - UTF-8.
Если字符ный набор веб-страницы HTML5 отличается от UTF-8, то этот набор следует указать в теге <meta>, например:
Пример
<meta charset="ISO-8859-1">
Разница между Unicode и UTF-8
Unicode - это черепа. UTF-8 - это кодирование.
Unicode - это список символов с уникальными десятичными числами (кодами точек). A = 65, B = 66, C = 67, ...
Этот список десятичных чисел представляет строку "hello": 104 101 108 108 111
Кодирование - это способ преобразования этих чисел в двоичные числа для хранения в компьютере:
UTF-8 кодирование будет хранить "hello" следующим образом (двоичный код): 01101000 01100101 01101100 01101100 01101111
КодированиеПреобразование числа в двоичное.ЧерепаПреобразование символа в число.
UTF-8 коды символов в HTML5
В таблице приведен список некоторых UTF-8 кодов символов, поддерживаемых HTML5:
Код символа | Десятичное число | Шестнадцатеричное число |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Пробельные модификаторы | 688-767 | 02B0-02FF |
Дiacritical Marks | 768-879 | 0300-036F |
Греческие и коптские символы | 880-1023 | 0370-03FF |
Основные символы кириллицы | 1024-1279 | 0400-04FF |
Дополнительные символы к кириллице | 1280-1327 | 0500-052F |
Общий знакопись | 8192-8303 | 2000-206F |
Символы валют | 8352-8399 | 20A0-20CF |
Символы, похожие на буквы | 8448-8527 | 2100-214F |
Стрелки | 8592-8703 | 2190-21FF |
Математические операторы | 8704-8959 | 2200-22FF |
Рисунки рамок | 9472-9599 | 2500-257F |
Блочные элементы | 9600-9631 | 2580-259F |
Геометрические фигуры | 9632-9727 | 25A0-25FF |
Различные символы | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Предыдущая страница Символы HTML
- Следующая страница Основы латинского языка