Manual de referencia Unicode (UTF-8) HTML

Página anterior Símbolos HTML
Página siguiente Fundamentos del latín

Unión Unicode

La Unión Unicode ha desarrollado el estándar Unicode. Su objetivo es reemplazar los conjuntos de caracteres existentes con su formato de conversión de Unicode estándar (UTF).

El estándar Unicode ha tenido éxito y se ha implementado a través de HTML, XML, Java, JavaScript, correo electrónico, ASP, PHP, etc. En muchos sistemas operativos y en todos los navegadores modernos, se admite el estándar Unicode.

La Unión Unicode colabora con las principales organizaciones de desarrollo de estándares (como ISO, W3C y ECMA).

Conjunto de caracteres Unicode

Unicode se puede implementar a través de diferentes conjuntos de caracteres. Los códigos de codificación más comunes son UTF-8 y UTF-16:

Conjunto de caracteres	Descripción
UTF-8	La longitud del carácter en UTF-8 puede ser de 1 a 4 bytes. UTF-8 puede representar cualquier carácter del estándar Unicode. UTF-8 es compatible con ASCII. UTF-8 es el código de codificación preferido para correos electrónicos y páginas web.
UTF-16	El formato de conversión Unicode de 16 bits es una codificación de longitud variable de Unicode, capaz de codificar todo el repertorio Unicode. UTF-16 se utiliza en los principales sistemas operativos y entornos, como Microsoft Windows, Java y .NET.

Conjunto de caracteres

Descripción

UTF-8

La longitud del carácter en UTF-8 puede ser de 1 a 4 bytes.

UTF-8 puede representar cualquier carácter del estándar Unicode.

UTF-8 es compatible con ASCII. UTF-8 es el código de codificación preferido para correos electrónicos y páginas web.

UTF-16

El formato de conversión Unicode de 16 bits es una codificación de longitud variable de Unicode, capaz de codificar todo el repertorio Unicode.

UTF-16 se utiliza en los principales sistemas operativos y entornos, como Microsoft Windows, Java y .NET.

Notas:Los primeros 128 caracteres de Unicode (que corresponden uno a uno con ASCII) se codifican con un byte de ocho bits, estos bytes tienen el mismo valor binario que ASCII, lo que hace que el texto ASCII efectivo también sea una codificación efectiva UTF-8 Unicode.

Consejo:HTML 4 admite UTF-8. HTML 5 admite UTF-8 y UTF-16!

Estándar HTML5: Unicode UTF-8

Dado que el tamaño del conjunto de caracteres en ISO-8859 está limitado y no es compatible con entornos multilingües, la Unión Unicode desarrolló el estándar Unicode.

Estándar Unicode (casi) cubre todos los caracteres, signos de puntuación y símbolos del mundo.

Unicode admite el procesamiento, almacenamiento y transmisión de texto independientes del sistema operativo y el idioma.

El código de caracteres predeterminado de HTML5 es UTF-8.

Si el conjunto de caracteres utilizado en la página web HTML5 es diferente de UTF-8, debe especificarse ese conjunto de caracteres en la etiqueta <meta>, por ejemplo:

Ejemplo

<meta charset="ISO-8859-1">

Diferencias entre Unicode y UTF-8

Unicode es un conjunto de caracteres. UTF-8 es una codificación.

Unicode es una lista de caracteres con números decimales únicos (puntos de código). A = 65, B = 66, C = 67, ...。

Esta lista de números decimales representa la cadena de caracteres "hello": 104 101 108 108 111

La codificación es la forma de convertir estos números en números binarios para almacenarlos en la computadora:

La codificación UTF-8 almacenará así "hello" (en binario): 01101000 01100101 01101100 01101100 01101111

CodificaciónConvierte los números en binario.Conjunto de caracteresConvierte los caracteres en números.

Códigos de caracteres UTF-8 de HTML5

A continuación se muestra una lista de algunos códigos de caracteres UTF-8 admitidos por HTML5:

Código de caracteres	En decimal	En hexadecimal
Controles C0 y Latin	0-127	0000-007F
Controles C1 y Suplemento Latin-1	128-255	0080-00FF
Latin extendido-A	256-383	0100-017F
Latin extendido-B	384-591	0180-024F
Modificadores de espaciado	688-767	02B0-02FF
Marcas diacríticas	768-879	0300-036F
Griego y copto	880-1023	0370-03FF
Cirílico básico	1024-1279	0400-04FF
Suplemento cirílico	1280-1327	0500-052F
Puntuación general	8192-8303	2000-206F
Símbolos de moneda	8352-8399	20A0-20CF
Símbolos similares a letras	8448-8527	2100-214F
Flechas	8592-8703	2190-21FF
Operadores matemáticos	8704-8959	2200-22FF
Dibujos de cajas	9472-9599	2500-257F
Elementos en cuadrícula	9600-9631	2580-259F
Formas geométricas	9632-9727	25A0-25FF
Símbolos misceláneos	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

Página anterior Símbolos HTML
Página siguiente Fundamentos del latín

Horario de cursos

Conjunto de caracteres HTML

UTF-8 HTML

Símbolos HTML

Entidad HTML

Cursos optativos

Recomendaciones de cursos:

Manual de referencia Unicode (UTF-8) HTML

Unión Unicode

Conjunto de caracteres Unicode

Estándar HTML5: Unicode UTF-8

Ejemplo

Diferencias entre Unicode y UTF-8

Códigos de caracteres UTF-8 de HTML5

Caja de herramientas

Manual de referencia de CSS

Ejemplos de CSS

Pruebas de CSS

Libro de texto extra de CSS

Enlaces de patrocinadores