Manuale di riferimento Unicode (UTF-8) HTML
- Pagina precedente Simboli HTML
- Pagina successiva Base latina
Unione Unicode
L'Unione Unicode ha sviluppato lo standard Unicode. Il loro obiettivo è sostituire le attuali set di caratteri con il formato di trasformazione Unicode standard (UTF).
Lo standard Unicode ha avuto successo e è stato implementato attraverso HTML, XML, Java, JavaScript, email, ASP, PHP e altri. In molti sistemi operativi e in tutti i browser moderni, è supportato lo standard Unicode.
L'Unione Unicode collabora con le principali organizzazioni di sviluppo di standard (ad esempio ISO, W3C e ECMA).
Set di caratteri Unicode
Unicode può essere implementato attraverso diversi set di caratteri. I codificatori più comuni sono UTF-8 e UTF-16:
Set di caratteri | Spiegazione |
---|---|
UTF-8 |
La lunghezza dei caratteri in UTF-8 può variare da 1 a 4 byte. UTF-8 può rappresentare qualsiasi carattere dello standard Unicode. UTF-8 è compatibile con ASCII. UTF-8 è la codifica preferita per le email e le pagine web. |
UTF-16 |
Il formato di conversione Unicode a lunghezza variabile è una codifica a lunghezza variabile di Unicode, in grado di codificare l'intero repertorio Unicode. UTF-16 viene utilizzato nei principali sistemi operativi e ambienti, come Microsoft Windows, Java e .NET. |
Nota:I primi 128 caratteri di Unicode (che corrispondono a ASCII) utilizzano una codifica a singolo byte, questi byte hanno lo stesso valore binario di ASCII, rendendo il testo ASCII efficace anche come codifica UTF-8 Unicode.
Suggerimento:HTML 4 supporta UTF-8. HTML 5 supporta UTF-8 e UTF-16!
Standard HTML5: Unicode UTF-8
Poiché la dimensione del set di caratteri in ISO-8859 è limitata e non compatibile con l'ambiente multilingue, l'Unione Unicode ha sviluppato lo standard Unicode.
Standard Unicode (quasi) copre tutti i caratteri, i segni di punteggiatura e i simboli del mondo.
Unicode supporta il trattamento, la memorizzazione e la trasmissione del testo indipendentemente dal sistema operativo e dalla lingua.
Il codifica di carattere predefinito in HTML5 è UTF-8.
Se il set di caratteri utilizzato nel sito web HTML5 non è diverso da UTF-8, deve essere specificato nel tag <meta>, ad esempio:
Esempio
<meta charset="ISO-8859-1">
Differenza tra Unicode e UTF-8
Unicode è un set di caratteri. UTF-8 è una codifica.
Unicode è una lista di caratteri con un numero decimale (punto di codifica) unico. A = 65, B = 66, C = 67, ...。
Questa lista di numeri decimali rappresenta la stringa "hello": 104 101 108 108 111
La codifica è il modo di convertire questi numeri in numeri binari per memorizzarli nel computer:
La codifica UTF-8 memorizzerà "hello" così (binario): 01101000 01100101 01101100 01101100 01101111
CodificaConvertire il numero in binario.Set di caratteriConvertire il carattere in numero.
Codici carattere UTF-8 HTML5
Di seguito è elencata una lista di alcuni codici di caratteri UTF-8 supportati da HTML5:
Codice carattere | Decimale | Esadecimale |
---|---|---|
Controlli C0 e Latin Basic | 0-127 | 0000-007F |
Controlli C1 e Suppl. Latin-1 | 128-255 | 0080-00FF |
Latino esteso-A | 256-383 | 0100-017F |
Latino esteso-B | 384-591 | 0180-024F |
Modificatori di spaziatura | 688-767 | 02B0-02FF |
Marchi di accento | 768-879 | 0300-036F |
Greco e copto | 880-1023 | 0370-03FF |
Cirillico di base | 1024-1279 | 0400-04FF |
Supplemento cirillico | 1280-1327 | 0500-052F |
Punctuation generale | 8192-8303 | 2000-206F |
Simboli monetari | 8352-8399 | 20A0-20CF |
Simboli simili a lettere | 8448-8527 | 2100-214F |
Freccie | 8592-8703 | 2190-21FF |
Operatori matematici | 8704-8959 | 2200-22FF |
Disegni di caselle | 9472-9599 | 2500-257F |
Elementi a blocco | 9600-9631 | 2580-259F |
Forme geometriche | 9632-9727 | 25A0-25FF |
Simboli vari | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Pagina precedente Simboli HTML
- Pagina successiva Base latina