Manuel de référence Unicode (UTF-8) HTML
- Page précédente Symboles HTML
- Page suivante Base latine
Union Unicode
L'Union Unicode a développé la norme Unicode. Leur objectif est de remplacer les jeux de caractères existants par le format de transformation Unicode standard (UTF).
La norme Unicode a été couronnée de succès et est mise en œuvre via HTML, XML, Java, JavaScript, email, ASP, PHP, etc. La norme Unicode est également supportée dans de nombreux systèmes d'exploitation et dans tous les navigateurs modernes.
L'Union Unicode collabore avec les principaux organismes de développement de normes (par exemple ISO, W3C et ECMA).
Jeux de caractères Unicode
Unicode peut être mis en œuvre par différents jeux de caractères. Les codages les plus courants sont UTF-8 et UTF-16 :
Jeux de caractères | Explication |
---|---|
UTF-8 |
La longueur d'un caractère en UTF-8 peut varier de 1 à 4 octets. UTF-8 peut représenter n'importe quel caractère du standard Unicode. UTF-8 est compatible avec ASCII. UTF-8 est le codage préféré pour les emails et les pages web. |
UTF-16 |
Le format de conversion Unicode de 16 bits est un encodage de caractères de longueur variable de Unicode, capable de coder tout le répertoire Unicode. UTF-16 est utilisé dans les principaux systèmes d'exploitation et environnements, tels que Microsoft Windows, Java et .NET. |
Remarque :Les 128 premiers caractères de Unicode (correspondant à l'ASCII) sont encodés avec un octet d'octet unique, ces huit bits ayant les mêmes valeurs binaires que l'ASCII, ce qui rend les textes ASCII valides dans l'encodage UTF-8.
Astuce :HTML 4 supporte UTF-8. HTML 5 supporte UTF-8 et UTF-16 !
Norme HTML5 : Unicode UTF-8
En raison de la taille limitée du jeu de caractères dans ISO-8859 et de son incompatibilité avec les environnements multilingues, l'Union Unicode a développé la norme Unicode.
La norme Unicode (presque) couvre tous les caractères, les signes de ponctuation et les symboles du monde.
Unicode supporte le traitement, le stockage et le transfert de textes indépendamment de la plateforme et de la langue.
Le codage de caractères par défaut dans HTML5 est UTF-8.
Si le jeu de caractères utilisé par une page web HTML5 n'est pas UTF-8, il doit être spécifié dans l'élément <meta>, par exemple :
Exemple
<meta charset="ISO-8859-1">
Différence entre Unicode et UTF-8
Unicode est un jeu de caractères. UTF-8 est un encodage.
Unicode est une liste de caractères avec des nombres décimaux uniques (code points). A = 65, B = 66, C = 67, ...。
Cette liste de nombres décimaux représente la chaîne de caractères "hello" : 104 101 108 108 111
L'encodage consiste à convertir ces nombres en nombres binaires pour les stocker dans l'ordinateur :
L'encodage UTF-8 stockera ainsi "hello" en binaire : 01101000 01100101 01101100 01101100 01101111
EncodageConvertir un nombre en binaire.Jeux de caractèresConvertir un caractère en nombre.
Codes de caractères UTF-8 HTML5
Le tableau suivant est une liste des codes de caractères UTF-8 pris en charge par HTML5 :
Code de caractères | Décimal | Hexadécimal |
---|---|---|
Contrôles C0 et Latin de base | 0-127 | 0000-007F |
Contrôles C1 et Latin-1 Supplément | 128-255 | 0080-00FF |
Latin étendu-A | 256-383 | 0100-017F |
Latin étendu-B | 384-591 | 0180-024F |
Modificateurs d'espacement | 688-767 | 02B0-02FF |
Marques diacritiques | 768-879 | 0300-036F |
Grec et copte | 880-1023 | 0370-03FF |
Cyrillique de base | 1024-1279 | 0400-04FF |
Supplément cyrillique | 1280-1327 | 0500-052F |
Ponctuation générale | 8192-8303 | 2000-206F |
Symboles monétaires | 8352-8399 | 20A0-20CF |
Symboles ressemblant à des lettres | 8448-8527 | 2100-214F |
Flèches | 8592-8703 | 2190-21FF |
Opérateurs mathématiques | 8704-8959 | 2200-22FF |
Dessins de boîtes | 9472-9599 | 2500-257F |
Éléments en bloc | 9600-9631 | 2580-259F |
Formes géométriques | 9632-9727 | 25A0-25FF |
Symboles divers | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Page précédente Symboles HTML
- Page suivante Base latine