Panduan Referensi Unicode (UTF-8) HTML
- Hal Sebelumnya Simbol HTML
- Hal Berikutnya Dasar Bahasa Latin
Liga Unicode
Liga Unicode mengembangkan standar Unicode. Tujuannya adalah untuk menggantikan set karakter yang ada saat ini dengan format konversi standar Unicode (UTF).
Standar Unicode telah sukses dan dapat diimplementasikan melalui HTML, XML, Java, JavaScript, email, ASP, PHP, dan lainnya. Di banyak sistem operasi dan seluruh peramban modern, standar Unicode juga didukung.
Liga Unicode bekerja sama dengan organisasi pengembang standar terkemuka (seperti ISO, W3C, dan ECMA).
Set karakter Unicode
Unicode dapat diwujudkan melalui berbagai set karakter. Pengkodean yang paling sering digunakan adalah UTF-8 dan UTF-16:
Koleksi Karakter | Keterangan |
---|---|
UTF-8 |
Panjang karakter dalam UTF8 dapat berada di antara 1 hingga 4 byte. UTF-8 dapat menampilkan semua karakter dalam standar Unicode. UTF-8 kompatibel dengan ASCII. UTF-8 adalah pengkodean yang paling disukai untuk email dan halaman web |
UTF-16 |
Format pengkodean karakter panjang 16-bit adalah pengkodean karakter panjang yang berukuran berubah dalam Unicode, yang dapat mengkode seluruh repertoire Unicode. UTF-16 digunakan di sistem operasi dan lingkungan utama, seperti Microsoft Windows, Java, dan .NET. |
Keterangan:128 karakter pertama Unicode (yang sejalan dengan ASCII) menggunakan pengkodean satuan bit yang sama seperti ASCII, sehingga teks ASCII yang efektif juga menjadi pengkodean UTF-8 Unicode yang efektif.
Petunjuk:HTML 4 mendukung UTF-8. HTML 5 mendukung UTF-8 dan UTF-16!
Standar HTML5: Unicode UTF-8
Karena ukuran karakter set dalam ISO-8859 terbatas dan tak kompatibel dengan lingkungan multibahasa, Lembaga Unicode mengembangkan standar Unicode.
Standar Unicode (hampir) mencakup semua karakter, tanda baca, dan simbol di dunia.
Unicode mendukung pengolahan, penyimpanan, dan transmisi teks yang independen dari platform dan bahasa.
Kode pengkodean baku dalam HTML5 adalah UTF-8.
Jika karakter set yang digunakan dalam halaman web HTML5 berbeda dari UTF-8, karakter set ini harus disebutkan di tag <meta>, seperti contoh berikut:
Contoh
<meta charset="ISO-8859-1">
Perbedaan antara Unicode dan UTF-8
Unicode adalah koleksi karakter. UTF-8 adalah pengkodean.
Unicode adalah daftar karakter dengan angka desimal (poin kode) unik. A = 65, B = 66, C = 67, ...
Daftar angka desimal ini mewakili string "hello": 104 101 108 108 111
Pengkodean adalah cara merubah angka-angka ini ke biner untuk disimpan di komputer:
Pengkodean UTF-8 akan disimpan seperti ini (biner) untuk "hello": 01101000 01100101 01101100 01101100 01101111
PengkodeanKonversi angka ke biner.Koleksi KarakterKonversi karakter ke angka.
Kode Karakter UTF-8 HTML5
Berikut adalah daftar kode karakter UTF-8 yang didukung oleh HTML5:
Kode Karakter | Desimal | Hexadesimal |
---|---|---|
C0 Kontrol dan Latin Dasar | 0-127 | 0000-007F |
Kontrol C1 dan Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Dilanjutkan-A | 256-383 | 0100-017F |
Latin Dilanjutkan-B | 384-591 | 0180-024F |
Penyesuai Spasi | 688-767 | 02B0-02FF |
Tanda Akhir | 768-879 | 0300-036F |
Greek dan Coptic | 880-1023 | 0370-03FF |
Cyrillic Dasar | 1024-1279 | 0400-04FF |
Tambahan Cyrillic | 1280-1327 | 0500-052F |
Puncak Umum | 8192-8303 | 2000-206F |
Simbol Mata Uang | 8352-8399 | 20A0-20CF |
Simbol Menyerupai Huruf | 8448-8527 | 2100-214F |
Tanduk | 8592-8703 | 2190-21FF |
Operator Matematika | 8704-8959 | 2200-22FF |
Gambar Bok | 9472-9599 | 2500-257F |
Elemen Blok | 9600-9631 | 2580-259F |
Bentuk Geometri | 9632-9727 | 25A0-25FF |
Simbol Bergolak | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Hal Sebelumnya Simbol HTML
- Hal Berikutnya Dasar Bahasa Latin