Manuale di riferimento Unicode (UTF-8) HTML

Pagina precedente Simboli HTML
Pagina successiva Base latina

Unione Unicode

L'Unione Unicode ha sviluppato lo standard Unicode. Il loro obiettivo è sostituire le attuali set di caratteri con il formato di trasformazione Unicode standard (UTF).

Lo standard Unicode ha avuto successo e è stato implementato attraverso HTML, XML, Java, JavaScript, email, ASP, PHP e altri. In molti sistemi operativi e in tutti i browser moderni, è supportato lo standard Unicode.

L'Unione Unicode collabora con le principali organizzazioni di sviluppo di standard (ad esempio ISO, W3C e ECMA).

Set di caratteri Unicode

Unicode può essere implementato attraverso diversi set di caratteri. I codificatori più comuni sono UTF-8 e UTF-16:

Set di caratteri	Spiegazione
UTF-8	La lunghezza dei caratteri in UTF-8 può variare da 1 a 4 byte. UTF-8 può rappresentare qualsiasi carattere dello standard Unicode. UTF-8 è compatibile con ASCII. UTF-8 è la codifica preferita per le email e le pagine web.
UTF-16	Il formato di conversione Unicode a lunghezza variabile è una codifica a lunghezza variabile di Unicode, in grado di codificare l'intero repertorio Unicode. UTF-16 viene utilizzato nei principali sistemi operativi e ambienti, come Microsoft Windows, Java e .NET.

Set di caratteri

Spiegazione

UTF-8

La lunghezza dei caratteri in UTF-8 può variare da 1 a 4 byte.

UTF-8 può rappresentare qualsiasi carattere dello standard Unicode.

UTF-8 è compatibile con ASCII. UTF-8 è la codifica preferita per le email e le pagine web.

UTF-16

Il formato di conversione Unicode a lunghezza variabile è una codifica a lunghezza variabile di Unicode, in grado di codificare l'intero repertorio Unicode.

UTF-16 viene utilizzato nei principali sistemi operativi e ambienti, come Microsoft Windows, Java e .NET.

Nota:I primi 128 caratteri di Unicode (che corrispondono a ASCII) utilizzano una codifica a singolo byte, questi byte hanno lo stesso valore binario di ASCII, rendendo il testo ASCII efficace anche come codifica UTF-8 Unicode.

Suggerimento:HTML 4 supporta UTF-8. HTML 5 supporta UTF-8 e UTF-16!

Standard HTML5: Unicode UTF-8

Poiché la dimensione del set di caratteri in ISO-8859 è limitata e non compatibile con l'ambiente multilingue, l'Unione Unicode ha sviluppato lo standard Unicode.

Standard Unicode (quasi) copre tutti i caratteri, i segni di punteggiatura e i simboli del mondo.

Unicode supporta il trattamento, la memorizzazione e la trasmissione del testo indipendentemente dal sistema operativo e dalla lingua.

Il codifica di carattere predefinito in HTML5 è UTF-8.

Se il set di caratteri utilizzato nel sito web HTML5 non è diverso da UTF-8, deve essere specificato nel tag <meta>, ad esempio:

Esempio

<meta charset="ISO-8859-1">

Differenza tra Unicode e UTF-8

Unicode è un set di caratteri. UTF-8 è una codifica.

Unicode è una lista di caratteri con un numero decimale (punto di codifica) unico. A = 65, B = 66, C = 67, ...。

Questa lista di numeri decimali rappresenta la stringa "hello": 104 101 108 108 111

La codifica è il modo di convertire questi numeri in numeri binari per memorizzarli nel computer:

La codifica UTF-8 memorizzerà "hello" così (binario): 01101000 01100101 01101100 01101100 01101111

CodificaConvertire il numero in binario.Set di caratteriConvertire il carattere in numero.

Codici carattere UTF-8 HTML5

Di seguito è elencata una lista di alcuni codici di caratteri UTF-8 supportati da HTML5:

Codice carattere	Decimale	Esadecimale
Controlli C0 e Latin Basic	0-127	0000-007F
Controlli C1 e Suppl. Latin-1	128-255	0080-00FF
Latino esteso-A	256-383	0100-017F
Latino esteso-B	384-591	0180-024F
Modificatori di spaziatura	688-767	02B0-02FF
Marchi di accento	768-879	0300-036F
Greco e copto	880-1023	0370-03FF
Cirillico di base	1024-1279	0400-04FF
Supplemento cirillico	1280-1327	0500-052F
Punctuation generale	8192-8303	2000-206F
Simboli monetari	8352-8399	20A0-20CF
Simboli simili a lettere	8448-8527	2100-214F
Freccie	8592-8703	2190-21FF
Operatori matematici	8704-8959	2200-22FF
Disegni di caselle	9472-9599	2500-257F
Elementi a blocco	9600-9631	2580-259F
Forme geometriche	9632-9727	25A0-25FF
Simboli vari	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

Pagina precedente Simboli HTML
Pagina successiva Base latina

Programma del corso

Set di caratteri HTML

HTML UTF-8

Simboli HTML

Entità HTML

Corso opzionale

Recomandazioni di corso:

Manuale di riferimento Unicode (UTF-8) HTML

Unione Unicode

Set di caratteri Unicode

Standard HTML5: Unicode UTF-8

Esempio

Differenza tra Unicode e UTF-8

Codici carattere UTF-8 HTML5

Strumenti

Manuale di riferimento CSS

Esempi di CSS

Test di CSS

Manuale extra di CSS

Link degli sponsor