Manuale di riferimento Unicode (UTF-8) HTML

Unione Unicode

L'Unione Unicode ha sviluppato lo standard Unicode. Il loro obiettivo è sostituire le attuali set di caratteri con il formato di trasformazione Unicode standard (UTF).

Lo standard Unicode ha avuto successo e è stato implementato attraverso HTML, XML, Java, JavaScript, email, ASP, PHP e altri. In molti sistemi operativi e in tutti i browser moderni, è supportato lo standard Unicode.

L'Unione Unicode collabora con le principali organizzazioni di sviluppo di standard (ad esempio ISO, W3C e ECMA).

Set di caratteri Unicode

Unicode può essere implementato attraverso diversi set di caratteri. I codificatori più comuni sono UTF-8 e UTF-16:

Set di caratteri Spiegazione
UTF-8

La lunghezza dei caratteri in UTF-8 può variare da 1 a 4 byte.

UTF-8 può rappresentare qualsiasi carattere dello standard Unicode.

UTF-8 è compatibile con ASCII. UTF-8 è la codifica preferita per le email e le pagine web.

UTF-16

Il formato di conversione Unicode a lunghezza variabile è una codifica a lunghezza variabile di Unicode, in grado di codificare l'intero repertorio Unicode.

UTF-16 viene utilizzato nei principali sistemi operativi e ambienti, come Microsoft Windows, Java e .NET.

Nota:I primi 128 caratteri di Unicode (che corrispondono a ASCII) utilizzano una codifica a singolo byte, questi byte hanno lo stesso valore binario di ASCII, rendendo il testo ASCII efficace anche come codifica UTF-8 Unicode.

Suggerimento:HTML 4 supporta UTF-8. HTML 5 supporta UTF-8 e UTF-16!

Standard HTML5: Unicode UTF-8

Poiché la dimensione del set di caratteri in ISO-8859 è limitata e non compatibile con l'ambiente multilingue, l'Unione Unicode ha sviluppato lo standard Unicode.

Standard Unicode (quasi) copre tutti i caratteri, i segni di punteggiatura e i simboli del mondo.

Unicode supporta il trattamento, la memorizzazione e la trasmissione del testo indipendentemente dal sistema operativo e dalla lingua.

Il codifica di carattere predefinito in HTML5 è UTF-8.

Se il set di caratteri utilizzato nel sito web HTML5 non è diverso da UTF-8, deve essere specificato nel tag <meta>, ad esempio:

Esempio

<meta charset="ISO-8859-1">

Differenza tra Unicode e UTF-8

Unicode è un set di caratteri. UTF-8 è una codifica.

Unicode è una lista di caratteri con un numero decimale (punto di codifica) unico. A = 65, B = 66, C = 67, ...。

Questa lista di numeri decimali rappresenta la stringa "hello": 104 101 108 108 111

La codifica è il modo di convertire questi numeri in numeri binari per memorizzarli nel computer:

La codifica UTF-8 memorizzerà "hello" così (binario): 01101000 01100101 01101100 01101100 01101111

CodificaConvertire il numero in binario.Set di caratteriConvertire il carattere in numero.

Codici carattere UTF-8 HTML5

Di seguito è elencata una lista di alcuni codici di caratteri UTF-8 supportati da HTML5:

Codice carattere Decimale Esadecimale
Controlli C0 e Latin Basic 0-127 0000-007F
Controlli C1 e Suppl. Latin-1 128-255 0080-00FF
Latino esteso-A 256-383 0100-017F
Latino esteso-B 384-591 0180-024F
Modificatori di spaziatura 688-767 02B0-02FF
Marchi di accento 768-879 0300-036F
Greco e copto 880-1023 0370-03FF
Cirillico di base 1024-1279 0400-04FF
Supplemento cirillico 1280-1327 0500-052F
Punctuation generale 8192-8303 2000-206F
Simboli monetari 8352-8399 20A0-20CF
Simboli simili a lettere 8448-8527 2100-214F
Freccie 8592-8703 2190-21FF
Operatori matematici 8704-8959 2200-22FF
Disegni di caselle 9472-9599 2500-257F
Elementi a blocco 9600-9631 2580-259F
Forme geometriche 9632-9727 25A0-25FF
Simboli vari 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF