Manual de referencia Unicode (UTF-8) HTML

Unión Unicode

La Unión Unicode ha desarrollado el estándar Unicode. Su objetivo es reemplazar los conjuntos de caracteres existentes con su formato de conversión de Unicode estándar (UTF).

El estándar Unicode ha tenido éxito y se ha implementado a través de HTML, XML, Java, JavaScript, correo electrónico, ASP, PHP, etc. En muchos sistemas operativos y en todos los navegadores modernos, se admite el estándar Unicode.

La Unión Unicode colabora con las principales organizaciones de desarrollo de estándares (como ISO, W3C y ECMA).

Conjunto de caracteres Unicode

Unicode se puede implementar a través de diferentes conjuntos de caracteres. Los códigos de codificación más comunes son UTF-8 y UTF-16:

Conjunto de caracteres Descripción
UTF-8

La longitud del carácter en UTF-8 puede ser de 1 a 4 bytes.

UTF-8 puede representar cualquier carácter del estándar Unicode.

UTF-8 es compatible con ASCII. UTF-8 es el código de codificación preferido para correos electrónicos y páginas web.

UTF-16

El formato de conversión Unicode de 16 bits es una codificación de longitud variable de Unicode, capaz de codificar todo el repertorio Unicode.

UTF-16 se utiliza en los principales sistemas operativos y entornos, como Microsoft Windows, Java y .NET.

Notas:Los primeros 128 caracteres de Unicode (que corresponden uno a uno con ASCII) se codifican con un byte de ocho bits, estos bytes tienen el mismo valor binario que ASCII, lo que hace que el texto ASCII efectivo también sea una codificación efectiva UTF-8 Unicode.

Consejo:HTML 4 admite UTF-8. HTML 5 admite UTF-8 y UTF-16!

Estándar HTML5: Unicode UTF-8

Dado que el tamaño del conjunto de caracteres en ISO-8859 está limitado y no es compatible con entornos multilingües, la Unión Unicode desarrolló el estándar Unicode.

Estándar Unicode (casi) cubre todos los caracteres, signos de puntuación y símbolos del mundo.

Unicode admite el procesamiento, almacenamiento y transmisión de texto independientes del sistema operativo y el idioma.

El código de caracteres predeterminado de HTML5 es UTF-8.

Si el conjunto de caracteres utilizado en la página web HTML5 es diferente de UTF-8, debe especificarse ese conjunto de caracteres en la etiqueta <meta>, por ejemplo:

Ejemplo

<meta charset="ISO-8859-1">

Diferencias entre Unicode y UTF-8

Unicode es un conjunto de caracteres. UTF-8 es una codificación.

Unicode es una lista de caracteres con números decimales únicos (puntos de código). A = 65, B = 66, C = 67, ...。

Esta lista de números decimales representa la cadena de caracteres "hello": 104 101 108 108 111

La codificación es la forma de convertir estos números en números binarios para almacenarlos en la computadora:

La codificación UTF-8 almacenará así "hello" (en binario): 01101000 01100101 01101100 01101100 01101111

CodificaciónConvierte los números en binario.Conjunto de caracteresConvierte los caracteres en números.

Códigos de caracteres UTF-8 de HTML5

A continuación se muestra una lista de algunos códigos de caracteres UTF-8 admitidos por HTML5:

Código de caracteres En decimal En hexadecimal
Controles C0 y Latin 0-127 0000-007F
Controles C1 y Suplemento Latin-1 128-255 0080-00FF
Latin extendido-A 256-383 0100-017F
Latin extendido-B 384-591 0180-024F
Modificadores de espaciado 688-767 02B0-02FF
Marcas diacríticas 768-879 0300-036F
Griego y copto 880-1023 0370-03FF
Cirílico básico 1024-1279 0400-04FF
Suplemento cirílico 1280-1327 0500-052F
Puntuación general 8192-8303 2000-206F
Símbolos de moneda 8352-8399 20A0-20CF
Símbolos similares a letras 8448-8527 2100-214F
Flechas 8592-8703 2190-21FF
Operadores matemáticos 8704-8959 2200-22FF
Dibujos de cajas 9472-9599 2500-257F
Elementos en cuadrícula 9600-9631 2580-259F
Formas geométricas 9632-9727 25A0-25FF
Símbolos misceláneos 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF