Conjunto de caracteres HTML

Para exibir corretamente a página HTML, o navegador deve saber qual conjunto de caracteres (codificação) usar:

Exemplo

<meta charset="UTF-8">

Conjunto de caracteres HTML

O padrão HTML5 incentiva os desenvolvedores da Web a usar o conjunto de caracteres UTF-8!

No entanto, não sempre foi assim. No início da Web, o código de caracteres era ASCII.

Mais tarde, desde o HTML 2.0 até o HTML 4.01, o ISO-8859-1 foi considerado o conjunto de caracteres padrão.

Com XML e HTML5, o UTF-8 finalmente surgiu e resolveu muitos problemas de codificação de caracteres.

Inicialmente: ASCII

Os dados de computador são armazenados em dispositivos eletrônicos em código binário (01000101).

Para padronizar o armazenamento de texto, foi criado o Código de Troca de Informação Americano (American Standard Code for Information Interchange, ASCII). Ele define um número binário único para cada caractere armazenável, para suportar números de 0 a 9, letras maiúsculas e minúsculas (a-z, A-Z) e caracteres especiais (como ! $ + - ( ) @ < > ,).

Devido ao ASCII usar 7 bits de caractere, ele pode representar apenas 128 caracteres diferentes.

A maior desvantagem do ASCII é que ele exclui caracteres não-alfabéticos.

Hoje, o ASCII ainda é usado, especialmente em sistemas de computadores de grande porte.

Para uma pesquisa mais profunda, visite nosso Referência completa do ASCII.

No Windows: Windows-1252

Windows-1252 é o conjunto de caracteres padrão no Windows (até o Windows 95).

É uma extensão do ASCII, adicionando caracteres internacionais.

Ele usa um byte completo (8 bits) para representar 256 caracteres diferentes.

Devido ao Windows-1252 ser a configuração padrão no Windows, todos os navegadores o suportam.

Para uma pesquisa mais profunda, visite nosso Referência completa do Windows-1252.

No HTML 4: ISO-8859-1

O conjunto de caracteres mais usado no HTML 4 é o ISO-8859-1.

ISO-8859-1 é uma extensão do ASCII, adicionando caracteres internacionais.

Exemplo

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

No HTML 4, você pode especificar um conjunto de caracteres diferente de ISO-8859-1 no <meta> tag:

Exemplo

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Todos os processadores HTML 4 também suportam UTF-8:

Exemplo

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Dica:Quando o navegador detecta ISO-8859-1, ele geralmente usa Windows-1252 por padrão, porque o Windows-1252 ainda tem 32 caracteres internacionais.

Para uma pesquisa mais profunda, visite nosso Referência completa do ISO-8859-1.

No HTML5: Unicode UTF-8

O padrão HTML5 encoraja os desenvolvedores web a usar o conjunto de caracteres UTF-8.

Exemplo

<meta charset="UTF-8">

Você pode especificar um conjunto de caracteres diferente de UTF-8 no <meta> tag:

Exemplo

<meta charset="ISO-8859-1">

A União Unicode desenvolveu os padrões UTF-8 e UTF-16, pois o conjunto de caracteres ISO-8859 é limitado e incompatível com ambientes multilíngues.

O padrão Unicode (quase) cobre todos os caracteres, pontuações e símbolos do mundo.

Dica:Todos os processadores HTML5 e XML suportam UTF-8, UTF-16, Windows-1252 e ISO-8859.

Para uma pesquisa mais profunda, visite nosso Referência completa do Unicode.