Manual de Referência Unicode (UTF-8) HTML

União Unicode

A União Unicode desenvolveu o padrão Unicode. Seu objetivo é substituir os conjuntos de caracteres existentes com o formato de conversão de Unicode padrão (UTF).

O padrão Unicode já foi bem-sucedido e implementado em HTML, XML, Java, JavaScript, e-mails, ASP, PHP e outros. Muitos sistemas operacionais e todos os navegadores modernos suportam o padrão Unicode.

A União Unicode colabora com organizações de desenvolvimento de padrões líderes (por exemplo, ISO, W3C e ECMA).

Conjunto de caracteres Unicode

O Unicode pode ser implementado por diferentes conjuntos de caracteres. Os mais comuns são UTF-8 e UTF-16:

Conjunto de caracteres Explicação
UTF-8

A duração do caractere no UTF-8 pode variar de 1 a 4 bytes.

UTF-8 pode representar qualquer caractere do padrão Unicode.

UTF-8 é compatível com ASCII. UTF-8 é a codificação preferida para e-mails e páginas da internet.

UTF-16

O formato de conversão Unicode de 16 bits é uma codificação de caractere de comprimento variável do Unicode, capaz de codificar todo o repertório Unicode.

UTF-16 é usado em principais sistemas operacionais e ambientes, como Microsoft Windows, Java e .NET.

Observação:Os primeiros 128 caracteres do Unicode (que correspondem ao ASCII) são codificados com um único byte de oito bits, esses oito bits têm o mesmo valor binário que o ASCII, tornando o texto ASCII válido também uma codificação UTF-8 Unicode.

Dica:HTML 4 suporta UTF-8. HTML 5 suporta UTF-8 e UTF-16!

Padrão HTML5: Unicode UTF-8

Devido ao tamanho limitado do conjunto de caracteres em ISO-8859 e à incompatibilidade com ambientes multilingues, a União Unicode desenvolveu o padrão Unicode.

Padrão Unicode (quase) cobre todos os caracteres, sinais de pontuação e símbolos do mundo.

Unicode suporta o processamento, armazenamento e transmissão de texto independentes de plataforma e idioma.

O código de caracteres padrão do HTML5 é UTF-8.

Se o conjunto de caracteres utilizado pela página web HTML5 não for UTF-8, deve ser especificado no marcador <meta>, por exemplo:

Exemplo

<meta charset="ISO-8859-1">

Diferença entre Unicode e UTF-8

Unicode é um conjunto de caracteres. UTF-8 é uma codificação.

Unicode é uma lista de caracteres com números decimais únicos (pontos de código). A = 65, B = 66, C = 67, ...

Esta lista de números decimais representa a string "hello": 104 101 108 108 111

A codificação é a maneira de converter esses números em números binários para armazenamento no computador:

A codificação UTF-8 armazenará assim (em binário) "hello": 01101000 01100101 01101100 01101100 01101111

CodificaçãoConverta o número para binário.Conjunto de caracteresConverta o caractere em número.

Código de caractere UTF-8 do HTML5

A seguir está uma lista de alguns códigos de caractere UTF-8 suportados pelo HTML5:

Código de caractere Decimal Hexadecimal
Controles C0 e Latin 0-127 0000-007F
Controles C1 e Suplemento Latin-1 128-255 0080-00FF
Latin Extendido-A 256-383 0100-017F
Latin Extendido-B 384-591 0180-024F
Modificadores de espaçamento 688-767 02B0-02FF
Marcas diacríticas 768-879 0300-036F
Grego e copta 880-1023 0370-03FF
Cirílico básico 1024-1279 0400-04FF
Suplemento cirílico 1280-1327 0500-052F
Punctuation geral 8192-8303 2000-206F
Símbolos de moeda 8352-8399 20A0-20CF
Símbolos semelhantes a letras 8448-8527 2100-214F
Setas 8592-8703 2190-21FF
Operadores matemáticos 8704-8959 2200-22FF
Desenhos de caixas 9472-9599 2500-257F
Elementos em bloco 9600-9631 2580-259F
Formas geométricas 9632-9727 25A0-25FF
Símbolos diversificados 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF