Manuel de référence Unicode (UTF-8) HTML
- Page précédente Symboles HTML
- Page suivante Base latine
Union des caractères Unicode
L'Union des caractères Unicode a développé le standard Unicode. Leur objectif est de remplacer les jeux de caractères existants par le format de conversion Unicode standard (UTF).
Le standard Unicode a réussi et a été mis en œuvre par HTML, XML, Java, JavaScript, email, ASP, PHP, etc. Le standard Unicode est également supporté dans de nombreux systèmes d'exploitation et dans tous les navigateurs modernes.
L'Union des caractères Unicode collabore avec les principales organisations de développement de standards (par exemple ISO, W3C et ECMA).
Jeux de caractères Unicode
Unicode peut être réalisé par différents jeux de caractères. Les codages les plus courants sont UTF-8 et UTF-16 :
Jeux de caractères | Explication |
---|---|
UTF-8 |
La longueur d'un caractère en UTF-8 peut varier de 1 à 4 octets. UTF-8 peut représenter n'importe quel caractère du standard Unicode. UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les emails et les pages web. |
UTF-16 |
Le format de conversion Unicode de 16 bits est un encodage de caractères de longueur variable de Unicode, capable de coder l'ensemble complet du répertoire Unicode. UTF-16 est utilisé pour les principaux systèmes d'exploitation et environnements, tels que Microsoft Windows, Java et .NET. |
Remarque :Les 128 premiers caractères de Unicode (correspondant à l'ASCII) sont encodés avec un octet d'octet unique, ayant les mêmes valeurs binaires que l'ASCII, ce qui rend les textes ASCII valides aussi des encodages UTF-8.
Astuce :HTML 4 supporte UTF-8. HTML 5 supporte UTF-8 et UTF-16 !
Standard HTML5 : Unicode UTF-8
En raison de la taille limitée du jeu de caractères dans ISO-8859 et de son incompatibilité avec les environnements multilingues, l'Union Unicode a développé le standard Unicode.
Le standard Unicode (presque) couvre tous les caractères, les signes de ponctuation et les symboles du monde.
Unicode supporte le traitement, le stockage et le transfert de textes indépendamment de la plateforme et de la langue.
Le codage de caractères par défaut dans HTML5 est UTF-8.
Si le jeu de caractères utilisé par une page web HTML5 n'est pas UTF-8, il doit être spécifié dans l'élément <meta>, par exemple :
Exemple
<meta charset="ISO-8859-1">
Différence entre Unicode et UTF-8
Unicode est un jeu de caractères. UTF-8 est un encodage.
Unicode est une liste de caractères avec des nombres décimaux uniques (code points). A = 65, B = 66, C = 67, ...
Cette liste de nombres décimaux représente la chaîne de caractères "hello" : 104 101 108 108 111
L'encodage consiste à convertir ces nombres en nombres binaires pour les stocker dans l'ordinateur :
L'encodage UTF-8 stockera ainsi "hello" (binaire) : 01101000 01100101 01101100 01101100 01101111
EncodageConvertir un nombre en binaire.Jeux de caractèresConvertir un caractère en nombre.
Codes de caractères UTF-8 HTML5
Le tableau suivant est une liste des codes de caractères UTF-8 pris en charge par HTML5 :
Code de caractère | Décimal | Hexadécimal |
---|---|---|
Contrôles C0 et Latin de base | 0-127 | 0000-007F |
Contrôles C1 et Latin-1 Supplément | 128-255 | 0080-00FF |
Latin étendu-A | 256-383 | 0100-017F |
Latin étendu-B | 384-591 | 0180-024F |
Modificateurs d'espacement | 688-767 | 02B0-02FF |
Marques diacritiques | 768-879 | 0300-036F |
Grec et copte | 880-1023 | 0370-03FF |
Cyrillique de base | 1024-1279 | 0400-04FF |
Supplément cyrillique | 1280-1327 | 0500-052F |
Ponctuation générale | 8192-8303 | 2000-206F |
Symboles monétaires | 8352-8399 | 20A0-20CF |
Symboles ressemblant à des lettres | 8448-8527 | 2100-214F |
Flèches | 8592-8703 | 2190-21FF |
Opérateurs mathématiques | 8704-8959 | 2200-22FF |
Dessins de boîtes | 9472-9599 | 2500-257F |
Éléments en bloc | 9600-9631 | 2580-259F |
Formes géométriques | 9632-9727 | 25A0-25FF |
Symboles divers | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Page précédente Symboles HTML
- Page suivante Base latine