Manual de Referência Unicode (UTF-8) HTML

Página anterior Símbolos HTML
Próxima página Fundamentos do latim

União Unicode

A União Unicode desenvolveu o padrão Unicode. Seu objetivo é substituir os conjuntos de caracteres existentes com o formato de conversão de Unicode padrão (UTF).

O padrão Unicode já foi bem-sucedido e implementado em HTML, XML, Java, JavaScript, e-mails, ASP, PHP e outros. Muitos sistemas operacionais e todos os navegadores modernos suportam o padrão Unicode.

A União Unicode colabora com organizações de desenvolvimento de padrões líderes (por exemplo, ISO, W3C e ECMA).

Conjunto de caracteres Unicode

O Unicode pode ser implementado por diferentes conjuntos de caracteres. Os mais comuns são UTF-8 e UTF-16:

Conjunto de caracteres	Explicação
UTF-8	A duração do caractere no UTF-8 pode variar de 1 a 4 bytes. UTF-8 pode representar qualquer caractere do padrão Unicode. UTF-8 é compatível com ASCII. UTF-8 é a codificação preferida para e-mails e páginas da internet.
UTF-16	O formato de conversão Unicode de 16 bits é uma codificação de caractere de comprimento variável do Unicode, capaz de codificar todo o repertório Unicode. UTF-16 é usado em principais sistemas operacionais e ambientes, como Microsoft Windows, Java e .NET.

Conjunto de caracteres

Explicação

UTF-8

A duração do caractere no UTF-8 pode variar de 1 a 4 bytes.

UTF-8 pode representar qualquer caractere do padrão Unicode.

UTF-8 é compatível com ASCII. UTF-8 é a codificação preferida para e-mails e páginas da internet.

UTF-16

O formato de conversão Unicode de 16 bits é uma codificação de caractere de comprimento variável do Unicode, capaz de codificar todo o repertório Unicode.

UTF-16 é usado em principais sistemas operacionais e ambientes, como Microsoft Windows, Java e .NET.

Observação:Os primeiros 128 caracteres do Unicode (que correspondem ao ASCII) são codificados com um único byte de oito bits, esses oito bits têm o mesmo valor binário que o ASCII, tornando o texto ASCII válido também uma codificação UTF-8 Unicode.

Dica:HTML 4 suporta UTF-8. HTML 5 suporta UTF-8 e UTF-16!

Padrão HTML5: Unicode UTF-8

Devido ao tamanho limitado do conjunto de caracteres em ISO-8859 e à incompatibilidade com ambientes multilingues, a União Unicode desenvolveu o padrão Unicode.

Padrão Unicode (quase) cobre todos os caracteres, sinais de pontuação e símbolos do mundo.

Unicode suporta o processamento, armazenamento e transmissão de texto independentes de plataforma e idioma.

O código de caracteres padrão do HTML5 é UTF-8.

Se o conjunto de caracteres utilizado pela página web HTML5 não for UTF-8, deve ser especificado no marcador <meta>, por exemplo:

Exemplo

<meta charset="ISO-8859-1">

Diferença entre Unicode e UTF-8

Unicode é um conjunto de caracteres. UTF-8 é uma codificação.

Unicode é uma lista de caracteres com números decimais únicos (pontos de código). A = 65, B = 66, C = 67, ...

Esta lista de números decimais representa a string "hello": 104 101 108 108 111

A codificação é a maneira de converter esses números em números binários para armazenamento no computador:

A codificação UTF-8 armazenará assim (em binário) "hello": 01101000 01100101 01101100 01101100 01101111

CodificaçãoConverta o número para binário.Conjunto de caracteresConverta o caractere em número.

Código de caractere UTF-8 do HTML5

A seguir está uma lista de alguns códigos de caractere UTF-8 suportados pelo HTML5:

Código de caractere	Decimal	Hexadecimal
Controles C0 e Latin	0-127	0000-007F
Controles C1 e Suplemento Latin-1	128-255	0080-00FF
Latin Extendido-A	256-383	0100-017F
Latin Extendido-B	384-591	0180-024F
Modificadores de espaçamento	688-767	02B0-02FF
Marcas diacríticas	768-879	0300-036F
Grego e copta	880-1023	0370-03FF
Cirílico básico	1024-1279	0400-04FF
Suplemento cirílico	1280-1327	0500-052F
Punctuation geral	8192-8303	2000-206F
Símbolos de moeda	8352-8399	20A0-20CF
Símbolos semelhantes a letras	8448-8527	2100-214F
Setas	8592-8703	2190-21FF
Operadores matemáticos	8704-8959	2200-22FF
Desenhos de caixas	9472-9599	2500-257F
Elementos em bloco	9600-9631	2580-259F
Formas geométricas	9632-9727	25A0-25FF
Símbolos diversificados	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

Página anterior Símbolos HTML
Próxima página Fundamentos do latim

Horário de aula

Conjunto de caracteres HTML

UTF-8 no HTML

Símbolos HTML

Entidade HTML

Cursos optativos

Recomendações de cursos:

Manual de Referência Unicode (UTF-8) HTML

União Unicode

Conjunto de caracteres Unicode

Padrão HTML5: Unicode UTF-8

Exemplo

Diferença entre Unicode e UTF-8

Código de caractere UTF-8 do HTML5

Caixa de ferramentas

Manual de referência de CSS

Exemplos de CSS

Teste de CSS

Livro de leitura extra de CSS

Links de patrocinadores