Panduan Referensi Unicode (UTF-8) HTML

Liga Unicode

Liga Unicode mengembangkan standar Unicode. Tujuannya adalah untuk menggantikan set karakter yang ada saat ini dengan format konversi Unicode standar (UTF) yang baru.

Standar Unicode telah sukses dan dapat dicapai melalui HTML, XML, Java, JavaScript, email, ASP, PHP, dan lainnya. Di banyak sistem operasi dan seluruh browser modern, standar Unicode juga didukung.

Liga Unicode bekerja sama dengan organisasi pengembang standar terkemuka (seperti ISO, W3C, dan ECMA).

Set karakter Unicode

Unicode dapat diwujudkan melalui berbagai set karakter. Kode yang paling sering digunakan adalah UTF-8 dan UTF-16:

Tipe Karakter Keterangan
UTF-8

Panjang karakter dalam UTF8 dapat berada di antara 1 sampai 4 byte.

UTF-8 dapat menampilkan setiap karakter dalam standar Unicode.

UTF-8 kompatibel dengan ASCII. UTF-8 adalah kode yang paling disukai untuk email dan halaman web

UTF-16

Format pengkodean karakter panjang 16-bit adalah pengkodean karakter panjang berukuran variabel Unicode, yang dapat mengkodekan seluruh repertoir Unicode.

UTF-16 digunakan di sistem operasi dan lingkungan utama, seperti Microsoft Windows, Java, dan .NET.

Keterangan:128 karakter pertama Unicode (sesuai dengan ASCII) menggunakan pengkodean satuan bit, yang memiliki nilai biner yang sama seperti ASCII, sehingga teks ASCII yang efektif juga menjadi pengkodean UTF-8 Unicode yang efektif.

Petunjuk:HTML 4 mendukung UTF-8. HTML 5 mendukung UTF-8 dan UTF-16!

Standar HTML5: Unicode UTF-8

Karena ukuran karakter set dalam ISO-8859 terbatas dan tak kompatibel dengan lingkungan multibahasa, Lembaga Unicode mengembangkan standar Unicode.

Standar Unicode (hampir) meliputi semua karakter, tanda baca, dan simbol di dunia.

Unicode mendukung pengolahan, penyimpanan, dan transmisi teks yang berbeda dari platform dan bahasa.

Kode pengkodean baku HTML5 adalah UTF-8.

Jika karakter set yang digunakan halaman web HTML5 berbeda dari UTF-8, maka karakter set harus disebutkan di tag <meta>, contohnya:

Contoh

<meta charset="ISO-8859-1">

Perbedaan antara Unicode dan UTF-8

Unicode adalah tipe karakter. UTF-8 adalah pengkodean.

Unicode adalah daftar karakter dengan angka desimal (kode titik) yang unik. A = 65, B = 66, C = 67, ...

Daftar angka desimal ini mewakili string "hello": 104 101 108 108 111

Pengkodean adalah cara merubah angka-angka ini ke bilangan biner untuk disimpan di komputer:

Pengkodean UTF-8 akan disimpan seperti ini (biner) untuk "hello": 01101000 01100101 01101100 01101100 01101111

PengkodeanKonversi angka ke biner.Tipe KarakterKonversi karakter ke angka.

Kode Karakter UTF-8 HTML5

Berikut adalah daftar kode kode karakter UTF-8 yang didukung HTML5:

Kode Karakter Desimal Hexadesimal
Kontrol C0 dan Latin Dasar 0-127 0000-007F
Kontrol C1 dan Tambahan Latin-1 128-255 0080-00FF
Latin Diperpanjang-A 256-383 0100-017F
Latin Diperpanjang-B 384-591 0180-024F
Penyesuai Spasi 688-767 02B0-02FF
Tanda Diakritik 768-879 0300-036F
Greek dan Koptik 880-1023 0370-03FF
Cyrillic Dasar 1024-1279 0400-04FF
Tambahan Cyrillic 1280-1327 0500-052F
Puncak Umum 8192-8303 2000-206F
Simbol Mata Uang 8352-8399 20A0-20CF
Simbol Menyerupai Huruf 8448-8527 2100-214F
Tanduk 8592-8703 2190-21FF
Operator Matematika 8704-8959 2200-22FF
Gambar Box 9472-9599 2500-257F
Elemen Block 9600-9631 2580-259F
Bentuk Geometri 9632-9727 25A0-25FF
Simbol Bergolak 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF