Panduan Referensi Unicode (UTF-8) HTML

Liga Unicode

Liga Unicode mengembangkan standar Unicode. Tujuannya adalah untuk menggantikan set karakter yang ada saat ini dengan format konversi standar Unicode (UTF).

Standar Unicode telah sukses dan dapat diimplementasikan melalui HTML, XML, Java, JavaScript, email, ASP, PHP, dan lainnya. Di banyak sistem operasi dan seluruh peramban modern, standar Unicode juga didukung.

Liga Unicode bekerja sama dengan organisasi pengembang standar terkemuka (seperti ISO, W3C, dan ECMA).

Set karakter Unicode

Unicode dapat diwujudkan melalui berbagai set karakter. Pengkodean yang paling sering digunakan adalah UTF-8 dan UTF-16:

Koleksi Karakter Keterangan
UTF-8

Panjang karakter dalam UTF8 dapat berada di antara 1 hingga 4 byte.

UTF-8 dapat menampilkan semua karakter dalam standar Unicode.

UTF-8 kompatibel dengan ASCII. UTF-8 adalah pengkodean yang paling disukai untuk email dan halaman web

UTF-16

Format pengkodean karakter panjang 16-bit adalah pengkodean karakter panjang yang berukuran berubah dalam Unicode, yang dapat mengkode seluruh repertoire Unicode.

UTF-16 digunakan di sistem operasi dan lingkungan utama, seperti Microsoft Windows, Java, dan .NET.

Keterangan:128 karakter pertama Unicode (yang sejalan dengan ASCII) menggunakan pengkodean satuan bit yang sama seperti ASCII, sehingga teks ASCII yang efektif juga menjadi pengkodean UTF-8 Unicode yang efektif.

Petunjuk:HTML 4 mendukung UTF-8. HTML 5 mendukung UTF-8 dan UTF-16!

Standar HTML5: Unicode UTF-8

Karena ukuran karakter set dalam ISO-8859 terbatas dan tak kompatibel dengan lingkungan multibahasa, Lembaga Unicode mengembangkan standar Unicode.

Standar Unicode (hampir) mencakup semua karakter, tanda baca, dan simbol di dunia.

Unicode mendukung pengolahan, penyimpanan, dan transmisi teks yang independen dari platform dan bahasa.

Kode pengkodean baku dalam HTML5 adalah UTF-8.

Jika karakter set yang digunakan dalam halaman web HTML5 berbeda dari UTF-8, karakter set ini harus disebutkan di tag <meta>, seperti contoh berikut:

Contoh

<meta charset="ISO-8859-1">

Perbedaan antara Unicode dan UTF-8

Unicode adalah koleksi karakter. UTF-8 adalah pengkodean.

Unicode adalah daftar karakter dengan angka desimal (poin kode) unik. A = 65, B = 66, C = 67, ...

Daftar angka desimal ini mewakili string "hello": 104 101 108 108 111

Pengkodean adalah cara merubah angka-angka ini ke biner untuk disimpan di komputer:

Pengkodean UTF-8 akan disimpan seperti ini (biner) untuk "hello": 01101000 01100101 01101100 01101100 01101111

PengkodeanKonversi angka ke biner.Koleksi KarakterKonversi karakter ke angka.

Kode Karakter UTF-8 HTML5

Berikut adalah daftar kode karakter UTF-8 yang didukung oleh HTML5:

Kode Karakter Desimal Hexadesimal
C0 Kontrol dan Latin Dasar 0-127 0000-007F
Kontrol C1 dan Latin-1 Supplement 128-255 0080-00FF
Latin Dilanjutkan-A 256-383 0100-017F
Latin Dilanjutkan-B 384-591 0180-024F
Penyesuai Spasi 688-767 02B0-02FF
Tanda Akhir 768-879 0300-036F
Greek dan Coptic 880-1023 0370-03FF
Cyrillic Dasar 1024-1279 0400-04FF
Tambahan Cyrillic 1280-1327 0500-052F
Puncak Umum 8192-8303 2000-206F
Simbol Mata Uang 8352-8399 20A0-20CF
Simbol Menyerupai Huruf 8448-8527 2100-214F
Tanduk 8592-8703 2190-21FF
Operator Matematika 8704-8959 2200-22FF
Gambar Bok 9472-9599 2500-257F
Elemen Blok 9600-9631 2580-259F
Bentuk Geometri 9632-9727 25A0-25FF
Simbol Bergolak 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF