Manual de Referência Unicode (UTF-8) HTML
- Página anterior Símbolos HTML
- Próxima página Fundamentos do latim
União Unicode
A União Unicode desenvolveu o padrão Unicode. Seu objetivo é substituir os conjuntos de caracteres existentes com o formato de conversão Unicode padrão (UTF).
O padrão Unicode já obteve sucesso e é implementado por HTML, XML, Java, JavaScript, e-mail, ASP, PHP, entre outros. Em muitos sistemas operacionais e em todos os navegadores modernos, o padrão Unicode é suportado.
A União Unicode colabora com as principais organizações de desenvolvimento de padrões (por exemplo, ISO, W3C e ECMA).
Conjunto de caracteres Unicode
O Unicode pode ser implementado por diferentes conjuntos de caracteres. Os mais comuns são UTF-8 e UTF-16:
Conjunto de caracteres | Descrição |
---|---|
UTF-8 |
O comprimento do caractere no UTF-8 pode variar de 1 a 4 bytes. O UTF-8 pode representar qualquer caractere do padrão Unicode. O UTF-8 é compatível com o ASCII. O UTF-8 é a codificação preferida para e-mails e páginas da web. |
UTF-16 |
O formato de conversão Unicode de 16 bits é uma codificação de caractere de comprimento variável do Unicode, capaz de codificar todo o repertório Unicode. UTF-16 é usado em principais sistemas operacionais e ambientes, como Microsoft Windows, Java e .NET. |
Notas:Os primeiros 128 caracteres do Unicode (que correspondem ao ASCII) são codificados com um único byte de oito bits, esses oito bits têm o mesmo valor binário que o ASCII, tornando o texto ASCII válido também uma codificação válida UTF-8.
Dica:O HTML 4 suporta UTF-8. O HTML 5 suporta UTF-8 e UTF-16!
Padrão HTML5: Unicode UTF-8
Devido ao tamanho limitado do conjunto de caracteres no ISO-8859 e à incompatibilidade com o ambiente multilíngue, a União Unicode desenvolveu o padrão Unicode.
Padrão Unicode (quase) cobre todos os caracteres, pontuações e símbolos do mundo.
Unicode suporta o processamento, armazenamento e transmissão de texto independentes de plataforma e idioma.
O código de codificação padrão do HTML5 é UTF-8.
Se o conjunto de caracteres da página web HTML5 utilizada não for UTF-8, deve ser especificado no marcador <meta>, por exemplo:
Exemplo
<meta charset="ISO-8859-1">
Diferença entre Unicode e UTF-8
Unicode é um conjunto de caracteres. UTF-8 é uma codificação.
Unicode é uma lista de caracteres com números decimais únicos (pontos de código). A = 65, B = 66, C = 67, ...
Esta lista de números decimais representa a string "hello": 104 101 108 108 111
A codificação é a maneira de converter esses números em números binários para armazenamento no computador:
A codificação UTF-8 armazenará assim (em binário) "hello": 01101000 01100101 01101100 01101100 01101111
CodificaçãoConverta o número para binário.Conjunto de caracteresConverta o caractere em número.
Código de caractere UTF-8 do HTML5
A seguir está uma lista de alguns códigos de caractere UTF-8 suportados pelo HTML5:
Código de caractere | Decimal | Hexadecimal |
---|---|---|
Controles C0 e Latin | 0-127 | 0000-007F |
Controles C1 e Suplemento Latin-1 | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Modificadores de espaçamento | 688-767 | 02B0-02FF |
Marcas diacríticas | 768-879 | 0300-036F |
Grego e copta | 880-1023 | 0370-03FF |
Cirílico básico | 1024-1279 | 0400-04FF |
Suplemento cirílico | 1280-1327 | 0500-052F |
Punctuation geral | 8192-8303 | 2000-206F |
Símbolos monetários | 8352-8399 | 20A0-20CF |
Símbolos semelhantes a letras | 8448-8527 | 2100-214F |
Setas | 8592-8703 | 2190-21FF |
Operadores matemáticos | 8704-8959 | 2200-22FF |
Desenhos de caixa | 9472-9599 | 2500-257F |
Elementos em bloco | 9600-9631 | 2580-259F |
Formas geométricas | 9632-9727 | 25A0-25FF |
Símbolos mistos | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Página anterior Símbolos HTML
- Próxima página Fundamentos do latim