Manual de Referência Unicode (UTF-8) HTML

União Unicode

A União Unicode desenvolveu o padrão Unicode. Seu objetivo é substituir os conjuntos de caracteres existentes com o formato de conversão Unicode padrão (UTF).

O padrão Unicode já obteve sucesso e é implementado por HTML, XML, Java, JavaScript, e-mail, ASP, PHP, entre outros. Em muitos sistemas operacionais e em todos os navegadores modernos, o padrão Unicode é suportado.

A União Unicode colabora com as principais organizações de desenvolvimento de padrões (por exemplo, ISO, W3C e ECMA).

Conjunto de caracteres Unicode

O Unicode pode ser implementado por diferentes conjuntos de caracteres. Os mais comuns são UTF-8 e UTF-16:

Conjunto de caracteres Descrição
UTF-8

O comprimento do caractere no UTF-8 pode variar de 1 a 4 bytes.

O UTF-8 pode representar qualquer caractere do padrão Unicode.

O UTF-8 é compatível com o ASCII. O UTF-8 é a codificação preferida para e-mails e páginas da web.

UTF-16

O formato de conversão Unicode de 16 bits é uma codificação de caractere de comprimento variável do Unicode, capaz de codificar todo o repertório Unicode.

UTF-16 é usado em principais sistemas operacionais e ambientes, como Microsoft Windows, Java e .NET.

Notas:Os primeiros 128 caracteres do Unicode (que correspondem ao ASCII) são codificados com um único byte de oito bits, esses oito bits têm o mesmo valor binário que o ASCII, tornando o texto ASCII válido também uma codificação válida UTF-8.

Dica:O HTML 4 suporta UTF-8. O HTML 5 suporta UTF-8 e UTF-16!

Padrão HTML5: Unicode UTF-8

Devido ao tamanho limitado do conjunto de caracteres no ISO-8859 e à incompatibilidade com o ambiente multilíngue, a União Unicode desenvolveu o padrão Unicode.

Padrão Unicode (quase) cobre todos os caracteres, pontuações e símbolos do mundo.

Unicode suporta o processamento, armazenamento e transmissão de texto independentes de plataforma e idioma.

O código de codificação padrão do HTML5 é UTF-8.

Se o conjunto de caracteres da página web HTML5 utilizada não for UTF-8, deve ser especificado no marcador <meta>, por exemplo:

Exemplo

<meta charset="ISO-8859-1">

Diferença entre Unicode e UTF-8

Unicode é um conjunto de caracteres. UTF-8 é uma codificação.

Unicode é uma lista de caracteres com números decimais únicos (pontos de código). A = 65, B = 66, C = 67, ...

Esta lista de números decimais representa a string "hello": 104 101 108 108 111

A codificação é a maneira de converter esses números em números binários para armazenamento no computador:

A codificação UTF-8 armazenará assim (em binário) "hello": 01101000 01100101 01101100 01101100 01101111

CodificaçãoConverta o número para binário.Conjunto de caracteresConverta o caractere em número.

Código de caractere UTF-8 do HTML5

A seguir está uma lista de alguns códigos de caractere UTF-8 suportados pelo HTML5:

Código de caractere Decimal Hexadecimal
Controles C0 e Latin 0-127 0000-007F
Controles C1 e Suplemento Latin-1 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Modificadores de espaçamento 688-767 02B0-02FF
Marcas diacríticas 768-879 0300-036F
Grego e copta 880-1023 0370-03FF
Cirílico básico 1024-1279 0400-04FF
Suplemento cirílico 1280-1327 0500-052F
Punctuation geral 8192-8303 2000-206F
Símbolos monetários 8352-8399 20A0-20CF
Símbolos semelhantes a letras 8448-8527 2100-214F
Setas 8592-8703 2190-21FF
Operadores matemáticos 8704-8959 2200-22FF
Desenhos de caixa 9472-9599 2500-257F
Elementos em bloco 9600-9631 2580-259F
Formas geométricas 9632-9727 25A0-25FF
Símbolos mistos 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF