Panduan Referensi Unicode (UTF-8) HTML
- Hal Sebelumnya Simbol HTML
- Hal Berikutnya Dasar Latin
Liga Unicode
Liga Unicode mengembangkan standar Unicode. Tujuannya adalah untuk menggantikan set karakter yang ada saat ini dengan format konversi Unicode standar (UTF) yang baru.
Standar Unicode telah sukses dan dapat dicapai melalui HTML, XML, Java, JavaScript, email, ASP, PHP, dan lainnya. Di banyak sistem operasi dan seluruh browser modern, standar Unicode juga didukung.
Liga Unicode bekerja sama dengan organisasi pengembang standar terkemuka (seperti ISO, W3C, dan ECMA).
Set karakter Unicode
Unicode dapat diwujudkan melalui berbagai set karakter. Kode yang paling sering digunakan adalah UTF-8 dan UTF-16:
Tipe Karakter | Keterangan |
---|---|
UTF-8 |
Panjang karakter dalam UTF8 dapat berada di antara 1 sampai 4 byte. UTF-8 dapat menampilkan setiap karakter dalam standar Unicode. UTF-8 kompatibel dengan ASCII. UTF-8 adalah kode yang paling disukai untuk email dan halaman web |
UTF-16 |
Format pengkodean karakter panjang 16-bit adalah pengkodean karakter panjang berukuran variabel Unicode, yang dapat mengkodekan seluruh repertoir Unicode. UTF-16 digunakan di sistem operasi dan lingkungan utama, seperti Microsoft Windows, Java, dan .NET. |
Keterangan:128 karakter pertama Unicode (sesuai dengan ASCII) menggunakan pengkodean satuan bit, yang memiliki nilai biner yang sama seperti ASCII, sehingga teks ASCII yang efektif juga menjadi pengkodean UTF-8 Unicode yang efektif.
Petunjuk:HTML 4 mendukung UTF-8. HTML 5 mendukung UTF-8 dan UTF-16!
Standar HTML5: Unicode UTF-8
Karena ukuran karakter set dalam ISO-8859 terbatas dan tak kompatibel dengan lingkungan multibahasa, Lembaga Unicode mengembangkan standar Unicode.
Standar Unicode (hampir) meliputi semua karakter, tanda baca, dan simbol di dunia.
Unicode mendukung pengolahan, penyimpanan, dan transmisi teks yang berbeda dari platform dan bahasa.
Kode pengkodean baku HTML5 adalah UTF-8.
Jika karakter set yang digunakan halaman web HTML5 berbeda dari UTF-8, maka karakter set harus disebutkan di tag <meta>, contohnya:
Contoh
<meta charset="ISO-8859-1">
Perbedaan antara Unicode dan UTF-8
Unicode adalah tipe karakter. UTF-8 adalah pengkodean.
Unicode adalah daftar karakter dengan angka desimal (kode titik) yang unik. A = 65, B = 66, C = 67, ...
Daftar angka desimal ini mewakili string "hello": 104 101 108 108 111
Pengkodean adalah cara merubah angka-angka ini ke bilangan biner untuk disimpan di komputer:
Pengkodean UTF-8 akan disimpan seperti ini (biner) untuk "hello": 01101000 01100101 01101100 01101100 01101111
PengkodeanKonversi angka ke biner.Tipe KarakterKonversi karakter ke angka.
Kode Karakter UTF-8 HTML5
Berikut adalah daftar kode kode karakter UTF-8 yang didukung HTML5:
Kode Karakter | Desimal | Hexadesimal |
---|---|---|
Kontrol C0 dan Latin Dasar | 0-127 | 0000-007F |
Kontrol C1 dan Tambahan Latin-1 | 128-255 | 0080-00FF |
Latin Diperpanjang-A | 256-383 | 0100-017F |
Latin Diperpanjang-B | 384-591 | 0180-024F |
Penyesuai Spasi | 688-767 | 02B0-02FF |
Tanda Diakritik | 768-879 | 0300-036F |
Greek dan Koptik | 880-1023 | 0370-03FF |
Cyrillic Dasar | 1024-1279 | 0400-04FF |
Tambahan Cyrillic | 1280-1327 | 0500-052F |
Puncak Umum | 8192-8303 | 2000-206F |
Simbol Mata Uang | 8352-8399 | 20A0-20CF |
Simbol Menyerupai Huruf | 8448-8527 | 2100-214F |
Tanduk | 8592-8703 | 2190-21FF |
Operator Matematika | 8704-8959 | 2200-22FF |
Gambar Box | 9472-9599 | 2500-257F |
Elemen Block | 9600-9631 | 2580-259F |
Bentuk Geometri | 9632-9727 | 25A0-25FF |
Simbol Bergolak | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Hal Sebelumnya Simbol HTML
- Hal Berikutnya Dasar Latin