Manual de Referência Unicode (UTF-8) HTML

Página anterior Símbolos HTML
Próxima página Fundamentos do latim

União Unicode

A União Unicode desenvolveu o padrão Unicode. Seu objetivo é substituir os conjuntos de caracteres existentes com o formato de conversão Unicode padrão (UTF).

O padrão Unicode já obteve sucesso e é implementado por HTML, XML, Java, JavaScript, e-mail, ASP, PHP, entre outros. Em muitos sistemas operacionais e em todos os navegadores modernos, o padrão Unicode é suportado.

A União Unicode colabora com as principais organizações de desenvolvimento de padrões (por exemplo, ISO, W3C e ECMA).

Conjunto de caracteres Unicode

O Unicode pode ser implementado por diferentes conjuntos de caracteres. Os mais comuns são UTF-8 e UTF-16:

Conjunto de caracteres	Descrição
UTF-8	O comprimento do caractere no UTF-8 pode variar de 1 a 4 bytes. O UTF-8 pode representar qualquer caractere do padrão Unicode. O UTF-8 é compatível com o ASCII. O UTF-8 é a codificação preferida para e-mails e páginas da web.
UTF-16	O formato de conversão Unicode de 16 bits é uma codificação de caractere de comprimento variável do Unicode, capaz de codificar todo o repertório Unicode. UTF-16 é usado em principais sistemas operacionais e ambientes, como Microsoft Windows, Java e .NET.

Conjunto de caracteres

Descrição

UTF-8

O comprimento do caractere no UTF-8 pode variar de 1 a 4 bytes.

O UTF-8 pode representar qualquer caractere do padrão Unicode.

O UTF-8 é compatível com o ASCII. O UTF-8 é a codificação preferida para e-mails e páginas da web.

UTF-16

O formato de conversão Unicode de 16 bits é uma codificação de caractere de comprimento variável do Unicode, capaz de codificar todo o repertório Unicode.

UTF-16 é usado em principais sistemas operacionais e ambientes, como Microsoft Windows, Java e .NET.

Notas:Os primeiros 128 caracteres do Unicode (que correspondem ao ASCII) são codificados com um único byte de oito bits, esses oito bits têm o mesmo valor binário que o ASCII, tornando o texto ASCII válido também uma codificação válida UTF-8.

Dica:O HTML 4 suporta UTF-8. O HTML 5 suporta UTF-8 e UTF-16!

Padrão HTML5: Unicode UTF-8

Devido ao tamanho limitado do conjunto de caracteres no ISO-8859 e à incompatibilidade com o ambiente multilíngue, a União Unicode desenvolveu o padrão Unicode.

Padrão Unicode (quase) cobre todos os caracteres, pontuações e símbolos do mundo.

Unicode suporta o processamento, armazenamento e transmissão de texto independentes de plataforma e idioma.

O código de codificação padrão do HTML5 é UTF-8.

Se o conjunto de caracteres da página web HTML5 utilizada não for UTF-8, deve ser especificado no marcador <meta>, por exemplo:

Exemplo

<meta charset="ISO-8859-1">

Diferença entre Unicode e UTF-8

Unicode é um conjunto de caracteres. UTF-8 é uma codificação.

Unicode é uma lista de caracteres com números decimais únicos (pontos de código). A = 65, B = 66, C = 67, ...

Esta lista de números decimais representa a string "hello": 104 101 108 108 111

A codificação é a maneira de converter esses números em números binários para armazenamento no computador:

A codificação UTF-8 armazenará assim (em binário) "hello": 01101000 01100101 01101100 01101100 01101111

CodificaçãoConverta o número para binário.Conjunto de caracteresConverta o caractere em número.

Código de caractere UTF-8 do HTML5

A seguir está uma lista de alguns códigos de caractere UTF-8 suportados pelo HTML5:

Código de caractere	Decimal	Hexadecimal
Controles C0 e Latin	0-127	0000-007F
Controles C1 e Suplemento Latin-1	128-255	0080-00FF
Latin Extended-A	256-383	0100-017F
Latin Extended-B	384-591	0180-024F
Modificadores de espaçamento	688-767	02B0-02FF
Marcas diacríticas	768-879	0300-036F
Grego e copta	880-1023	0370-03FF
Cirílico básico	1024-1279	0400-04FF
Suplemento cirílico	1280-1327	0500-052F
Punctuation geral	8192-8303	2000-206F
Símbolos monetários	8352-8399	20A0-20CF
Símbolos semelhantes a letras	8448-8527	2100-214F
Setas	8592-8703	2190-21FF
Operadores matemáticos	8704-8959	2200-22FF
Desenhos de caixa	9472-9599	2500-257F
Elementos em bloco	9600-9631	2580-259F
Formas geométricas	9632-9727	25A0-25FF
Símbolos mistos	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

Página anterior Símbolos HTML
Próxima página Fundamentos do latim

Horário de cursos

Conjunto de caracteres HTML

UTF-8 HTML

Símbolos HTML

Entidade HTML

Cursos optativos

Recomendação de cursos:

Manual de Referência Unicode (UTF-8) HTML

União Unicode

Conjunto de caracteres Unicode

Padrão HTML5: Unicode UTF-8

Exemplo

Diferença entre Unicode e UTF-8

Código de caractere UTF-8 do HTML5

Caixa de ferramentas

Manual de referência CSS

Exemplos CSS

Teste CSS

Livro de exercícios CSS

Links de patrocinadores