Manual de referencia Unicode (UTF-8) HTML
- Página anterior Símbolos HTML
- Página siguiente Fundamentos del latín
Unión Unicode
La Unión Unicode ha desarrollado el estándar Unicode. Su objetivo es reemplazar los conjuntos de caracteres existentes con su formato de conversión de Unicode estándar (UTF).
El estándar Unicode ha tenido éxito y se ha implementado a través de HTML, XML, Java, JavaScript, correo electrónico, ASP, PHP, etc. En muchos sistemas operativos y en todos los navegadores modernos, se admite el estándar Unicode.
La Unión Unicode colabora con las principales organizaciones de desarrollo de estándares (como ISO, W3C y ECMA).
Conjunto de caracteres Unicode
Unicode se puede implementar a través de diferentes conjuntos de caracteres. Los códigos de codificación más comunes son UTF-8 y UTF-16:
Conjunto de caracteres | Descripción |
---|---|
UTF-8 |
La longitud del carácter en UTF-8 puede ser de 1 a 4 bytes. UTF-8 puede representar cualquier carácter del estándar Unicode. UTF-8 es compatible con ASCII. UTF-8 es el código de codificación preferido para correos electrónicos y páginas web. |
UTF-16 |
El formato de conversión Unicode de 16 bits es una codificación de longitud variable de Unicode, capaz de codificar todo el repertorio Unicode. UTF-16 se utiliza en los principales sistemas operativos y entornos, como Microsoft Windows, Java y .NET. |
Notas:Los primeros 128 caracteres de Unicode (que corresponden uno a uno con ASCII) se codifican con un byte de ocho bits, estos bytes tienen el mismo valor binario que ASCII, lo que hace que el texto ASCII efectivo también sea una codificación efectiva UTF-8 Unicode.
Consejo:HTML 4 admite UTF-8. HTML 5 admite UTF-8 y UTF-16!
Estándar HTML5: Unicode UTF-8
Dado que el tamaño del conjunto de caracteres en ISO-8859 está limitado y no es compatible con entornos multilingües, la Unión Unicode desarrolló el estándar Unicode.
Estándar Unicode (casi) cubre todos los caracteres, signos de puntuación y símbolos del mundo.
Unicode admite el procesamiento, almacenamiento y transmisión de texto independientes del sistema operativo y el idioma.
El código de caracteres predeterminado de HTML5 es UTF-8.
Si el conjunto de caracteres utilizado en la página web HTML5 es diferente de UTF-8, debe especificarse ese conjunto de caracteres en la etiqueta <meta>, por ejemplo:
Ejemplo
<meta charset="ISO-8859-1">
Diferencias entre Unicode y UTF-8
Unicode es un conjunto de caracteres. UTF-8 es una codificación.
Unicode es una lista de caracteres con números decimales únicos (puntos de código). A = 65, B = 66, C = 67, ...。
Esta lista de números decimales representa la cadena de caracteres "hello": 104 101 108 108 111
La codificación es la forma de convertir estos números en números binarios para almacenarlos en la computadora:
La codificación UTF-8 almacenará así "hello" (en binario): 01101000 01100101 01101100 01101100 01101111
CodificaciónConvierte los números en binario.Conjunto de caracteresConvierte los caracteres en números.
Códigos de caracteres UTF-8 de HTML5
A continuación se muestra una lista de algunos códigos de caracteres UTF-8 admitidos por HTML5:
Código de caracteres | En decimal | En hexadecimal |
---|---|---|
Controles C0 y Latin | 0-127 | 0000-007F |
Controles C1 y Suplemento Latin-1 | 128-255 | 0080-00FF |
Latin extendido-A | 256-383 | 0100-017F |
Latin extendido-B | 384-591 | 0180-024F |
Modificadores de espaciado | 688-767 | 02B0-02FF |
Marcas diacríticas | 768-879 | 0300-036F |
Griego y copto | 880-1023 | 0370-03FF |
Cirílico básico | 1024-1279 | 0400-04FF |
Suplemento cirílico | 1280-1327 | 0500-052F |
Puntuación general | 8192-8303 | 2000-206F |
Símbolos de moneda | 8352-8399 | 20A0-20CF |
Símbolos similares a letras | 8448-8527 | 2100-214F |
Flechas | 8592-8703 | 2190-21FF |
Operadores matemáticos | 8704-8959 | 2200-22FF |
Dibujos de cajas | 9472-9599 | 2500-257F |
Elementos en cuadrícula | 9600-9631 | 2580-259F |
Formas geométricas | 9632-9727 | 25A0-25FF |
Símbolos misceláneos | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Página anterior Símbolos HTML
- Página siguiente Fundamentos del latín