Manuel de référence Unicode (UTF-8) HTML

Union des caractères Unicode

L'Union des caractères Unicode a développé le standard Unicode. Leur objectif est de remplacer les jeux de caractères existants par le format de conversion Unicode standard (UTF).

Le standard Unicode a réussi et a été mis en œuvre par HTML, XML, Java, JavaScript, email, ASP, PHP, etc. Le standard Unicode est également supporté dans de nombreux systèmes d'exploitation et dans tous les navigateurs modernes.

L'Union des caractères Unicode collabore avec les principales organisations de développement de standards (par exemple ISO, W3C et ECMA).

Jeux de caractères Unicode

Unicode peut être réalisé par différents jeux de caractères. Les codages les plus courants sont UTF-8 et UTF-16 :

Jeux de caractères Explication
UTF-8

La longueur d'un caractère en UTF-8 peut varier de 1 à 4 octets.

UTF-8 peut représenter n'importe quel caractère du standard Unicode.

UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les emails et les pages web.

UTF-16

Le format de conversion Unicode de 16 bits est un encodage de caractères de longueur variable de Unicode, capable de coder l'ensemble complet du répertoire Unicode.

UTF-16 est utilisé pour les principaux systèmes d'exploitation et environnements, tels que Microsoft Windows, Java et .NET.

Remarque :Les 128 premiers caractères de Unicode (correspondant à l'ASCII) sont encodés avec un octet d'octet unique, ayant les mêmes valeurs binaires que l'ASCII, ce qui rend les textes ASCII valides aussi des encodages UTF-8.

Astuce :HTML 4 supporte UTF-8. HTML 5 supporte UTF-8 et UTF-16 !

Standard HTML5 : Unicode UTF-8

En raison de la taille limitée du jeu de caractères dans ISO-8859 et de son incompatibilité avec les environnements multilingues, l'Union Unicode a développé le standard Unicode.

Le standard Unicode (presque) couvre tous les caractères, les signes de ponctuation et les symboles du monde.

Unicode supporte le traitement, le stockage et le transfert de textes indépendamment de la plateforme et de la langue.

Le codage de caractères par défaut dans HTML5 est UTF-8.

Si le jeu de caractères utilisé par une page web HTML5 n'est pas UTF-8, il doit être spécifié dans l'élément <meta>, par exemple :

Exemple

<meta charset="ISO-8859-1">

Différence entre Unicode et UTF-8

Unicode est un jeu de caractères. UTF-8 est un encodage.

Unicode est une liste de caractères avec des nombres décimaux uniques (code points). A = 65, B = 66, C = 67, ...

Cette liste de nombres décimaux représente la chaîne de caractères "hello" : 104 101 108 108 111

L'encodage consiste à convertir ces nombres en nombres binaires pour les stocker dans l'ordinateur :

L'encodage UTF-8 stockera ainsi "hello" (binaire) : 01101000 01100101 01101100 01101100 01101111

EncodageConvertir un nombre en binaire.Jeux de caractèresConvertir un caractère en nombre.

Codes de caractères UTF-8 HTML5

Le tableau suivant est une liste des codes de caractères UTF-8 pris en charge par HTML5 :

Code de caractère Décimal Hexadécimal
Contrôles C0 et Latin de base 0-127 0000-007F
Contrôles C1 et Latin-1 Supplément 128-255 0080-00FF
Latin étendu-A 256-383 0100-017F
Latin étendu-B 384-591 0180-024F
Modificateurs d'espacement 688-767 02B0-02FF
Marques diacritiques 768-879 0300-036F
Grec et copte 880-1023 0370-03FF
Cyrillique de base 1024-1279 0400-04FF
Supplément cyrillique 1280-1327 0500-052F
Ponctuation générale 8192-8303 2000-206F
Symboles monétaires 8352-8399 20A0-20CF
Symboles ressemblant à des lettres 8448-8527 2100-214F
Flèches 8592-8703 2190-21FF
Opérateurs mathématiques 8704-8959 2200-22FF
Dessins de boîtes 9472-9599 2500-257F
Éléments en bloc 9600-9631 2580-259F
Formes géométriques 9632-9727 25A0-25FF
Symboles divers 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF