Manuel de référence Unicode (UTF-8) HTML

Page précédente Symboles HTML
Page suivante Base latine

Union des caractères Unicode

L'Union des caractères Unicode a développé le standard Unicode. Leur objectif est de remplacer les jeux de caractères existants par le format de conversion Unicode standard (UTF).

Le standard Unicode a réussi et a été mis en œuvre par HTML, XML, Java, JavaScript, email, ASP, PHP, etc. Le standard Unicode est également supporté dans de nombreux systèmes d'exploitation et dans tous les navigateurs modernes.

L'Union des caractères Unicode collabore avec les principales organisations de développement de standards (par exemple ISO, W3C et ECMA).

Jeux de caractères Unicode

Unicode peut être réalisé par différents jeux de caractères. Les codages les plus courants sont UTF-8 et UTF-16 :

Jeux de caractères	Explication
UTF-8	La longueur d'un caractère en UTF-8 peut varier de 1 à 4 octets. UTF-8 peut représenter n'importe quel caractère du standard Unicode. UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les emails et les pages web.
UTF-16	Le format de conversion Unicode de 16 bits est un encodage de caractères de longueur variable de Unicode, capable de coder l'ensemble complet du répertoire Unicode. UTF-16 est utilisé pour les principaux systèmes d'exploitation et environnements, tels que Microsoft Windows, Java et .NET.

Jeux de caractères

Explication

UTF-8

La longueur d'un caractère en UTF-8 peut varier de 1 à 4 octets.

UTF-8 peut représenter n'importe quel caractère du standard Unicode.

UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les emails et les pages web.

UTF-16

Le format de conversion Unicode de 16 bits est un encodage de caractères de longueur variable de Unicode, capable de coder l'ensemble complet du répertoire Unicode.

UTF-16 est utilisé pour les principaux systèmes d'exploitation et environnements, tels que Microsoft Windows, Java et .NET.

Remarque :Les 128 premiers caractères de Unicode (correspondant à l'ASCII) sont encodés avec un octet d'octet unique, ayant les mêmes valeurs binaires que l'ASCII, ce qui rend les textes ASCII valides aussi des encodages UTF-8.

Astuce :HTML 4 supporte UTF-8. HTML 5 supporte UTF-8 et UTF-16 !

Standard HTML5 : Unicode UTF-8

En raison de la taille limitée du jeu de caractères dans ISO-8859 et de son incompatibilité avec les environnements multilingues, l'Union Unicode a développé le standard Unicode.

Le standard Unicode (presque) couvre tous les caractères, les signes de ponctuation et les symboles du monde.

Unicode supporte le traitement, le stockage et le transfert de textes indépendamment de la plateforme et de la langue.

Le codage de caractères par défaut dans HTML5 est UTF-8.

Si le jeu de caractères utilisé par une page web HTML5 n'est pas UTF-8, il doit être spécifié dans l'élément <meta>, par exemple :

Exemple

<meta charset="ISO-8859-1">

Différence entre Unicode et UTF-8

Unicode est un jeu de caractères. UTF-8 est un encodage.

Unicode est une liste de caractères avec des nombres décimaux uniques (code points). A = 65, B = 66, C = 67, ...

Cette liste de nombres décimaux représente la chaîne de caractères "hello" : 104 101 108 108 111

L'encodage consiste à convertir ces nombres en nombres binaires pour les stocker dans l'ordinateur :

L'encodage UTF-8 stockera ainsi "hello" (binaire) : 01101000 01100101 01101100 01101100 01101111

EncodageConvertir un nombre en binaire.Jeux de caractèresConvertir un caractère en nombre.

Codes de caractères UTF-8 HTML5

Le tableau suivant est une liste des codes de caractères UTF-8 pris en charge par HTML5 :

Code de caractère	Décimal	Hexadécimal
Contrôles C0 et Latin de base	0-127	0000-007F
Contrôles C1 et Latin-1 Supplément	128-255	0080-00FF
Latin étendu-A	256-383	0100-017F
Latin étendu-B	384-591	0180-024F
Modificateurs d'espacement	688-767	02B0-02FF
Marques diacritiques	768-879	0300-036F
Grec et copte	880-1023	0370-03FF
Cyrillique de base	1024-1279	0400-04FF
Supplément cyrillique	1280-1327	0500-052F
Ponctuation générale	8192-8303	2000-206F
Symboles monétaires	8352-8399	20A0-20CF
Symboles ressemblant à des lettres	8448-8527	2100-214F
Flèches	8592-8703	2190-21FF
Opérateurs mathématiques	8704-8959	2200-22FF
Dessins de boîtes	9472-9599	2500-257F
Éléments en bloc	9600-9631	2580-259F
Formes géométriques	9632-9727	25A0-25FF
Symboles divers	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

Page précédente Symboles HTML
Page suivante Base latine

Calendrier des cours

Jeux de caractères HTML

HTML UTF-8

Symboles HTML

Entité HTML

Cours optionnels

Recommandation de cours :

Manuel de référence Unicode (UTF-8) HTML

Union des caractères Unicode

Jeux de caractères Unicode

Standard HTML5 : Unicode UTF-8

Exemple

Différence entre Unicode et UTF-8

Codes de caractères UTF-8 HTML5

Boîte à outils

Manuel de référence CSS

Exemples CSS

Test CSS

Livre de compléments CSS

Liens de sponsors