Manual de referencia Unicode (UTF-8) HTML
- Página anterior Símbolos HTML
- Página siguiente Fundamentos del latín
Unión Unicode
La Unión Unicode ha desarrollado el estándar Unicode. Su objetivo es reemplazar los conjuntos de caracteres existentes con su formato de conversión de Unicode estándar (UTF).
El estándar Unicode ha tenido éxito y se ha implementado a través de HTML, XML, Java, JavaScript, correo electrónico, ASP, PHP, entre otros. En muchos sistemas operativos y en todos los navegadores modernos, se admite el estándar Unicode.
La Unión Unicode colabora con las principales organizaciones de desarrollo de estándares (como ISO, W3C y ECMA).
Conjunto de caracteres Unicode
Unicode puede implementarse a través de diferentes conjuntos de caracteres. Los más comunes son UTF-8 y UTF-16:
Conjunto de caracteres | Descripción |
---|---|
UTF-8 |
La longitud de los caracteres en UTF-8 puede variar de 1 a 4 bytes. UTF-8 puede representar cualquier carácter del estándar Unicode. UTF-8 es compatible con ASCII. UTF-8 es la codificación preferida para correos electrónicos y páginas web. |
UTF-16 |
El formato de conversión Unicode de 16 bits es una codificación de caracteres de longitud variable de Unicode, capaz de codificar todo el repertorio Unicode. UTF-16 se utiliza en los principales sistemas operativos y entornos, como Microsoft Windows, Java y .NET. |
Nota:Los primeros 128 caracteres de Unicode (que corresponden uno a uno con ASCII) se codifican con un byte de ocho bits, estos bytes tienen valores binarios iguales a los de ASCII, lo que hace que el texto ASCII válido también sea una codificación válida UTF-8 Unicode.
Consejo:HTML 4 admite UTF-8. HTML 5 admite UTF-8 y UTF-16!
Estándar HTML5: Unicode UTF-8
Dado que el tamaño del conjunto de caracteres en ISO-8859 está limitado y no es compatible con entornos multilingües, la Unión Unicode desarrolló el estándar Unicode.
Estándar Unicode (casi) cubre todos los caracteres, signos de puntuación y símbolos del mundo.
Unicode admite el procesamiento, almacenamiento y transmisión de texto independientes de la plataforma y el idioma.
El código de caracteres predeterminado de HTML5 es UTF-8.
Si el conjunto de caracteres utilizado en la página web HTML5 es diferente de UTF-8, debe especificarse ese conjunto de caracteres en la etiqueta <meta>, por ejemplo:
Ejemplo
<meta charset="ISO-8859-1">
Diferencias entre Unicode y UTF-8
Unicode es un conjunto de caracteres. UTF-8 es una codificación.
Unicode es una lista de caracteres con números decimales únicos (puntos de código). A = 65, B = 66, C = 67, ...。
Esta lista de números decimales representa la cadena de caracteres "hello": 104 101 108 108 111
La codificación es la manera de convertir estos números en números binarios para almacenarlos en la computadora:
La codificación UTF-8 almacenará "hello" de la siguiente manera (binario): 01101000 01100101 01101100 01101100 01101111
CodificaciónConvierte los números en binario.Conjunto de caracteresConvierte los caracteres en números.
Códigos de caracteres UTF-8 de HTML5
A continuación se muestra una lista de algunos códigos de caracteres UTF-8 soportados por HTML5:
Código de caracteres | En decimal | En hexadecimal |
---|---|---|
Controles C0 y Latin | 0-127 | 0000-007F |
Controles C1 y Suplemento Latin-1 | 128-255 | 0080-00FF |
Latin extendido-A | 256-383 | 0100-017F |
Latin extendido-B | 384-591 | 0180-024F |
Modificadores de espacio | 688-767 | 02B0-02FF |
Marcas diacríticas | 768-879 | 0300-036F |
Griego y copto | 880-1023 | 0370-03FF |
Cirílico básico | 1024-1279 | 0400-04FF |
Suplemento cirílico | 1280-1327 | 0500-052F |
Puntuación general | 8192-8303 | 2000-206F |
Símbolos de moneda | 8352-8399 | 20A0-20CF |
Símbolos alfanuméricos | 8448-8527 | 2100-214F |
Flechas | 8592-8703 | 2190-21FF |
Operadores matemáticos | 8704-8959 | 2200-22FF |
Dibujos de cuadros | 9472-9599 | 2500-257F |
Elementos en cuadrícula | 9600-9631 | 2580-259F |
Formas geométricas | 9632-9727 | 25A0-25FF |
Símbolos misceláneos | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Página anterior Símbolos HTML
- Página siguiente Fundamentos del latín