Panduan Rujukan Unicode (UTF-8) HTML
- Hal Sebelumnya Simbol HTML
- Hal Berikutnya Dasar Latin
Liga Unicode
Liga Unicode mengembangkan standar Unicode. Maksud mereka adalah untuk menggantikan set aksara yang ada saat ini dengan format konversi Unicode standar (UTF).
Standar Unicode telah sukses dan dapat dicapai melalui HTML, XML, Java, JavaScript, e-mel, ASP, PHP dan lainnya. Di banyak sistem operasi dan semua pelayar modern, standar Unicode juga disokong.
Liga Unicode bekerjasama dengan organisasi pengembang standar yang terkemuka (seperti ISO, W3C dan ECMA).
Set aksara Unicode
Unicode boleh dicapai melalui berbagai set aksara. Pengkodan yang paling sering digunakan adalah UTF-8 dan UTF-16:
Sistem Aksara | Penerangan |
---|---|
UTF-8 |
Panjang aksara dalam UTF8 boleh berada diantara 1 hingga 4 bait. UTF-8 boleh menunjukkan setiap aksara dalam standar Unicode. UTF-8 mempunyai keserasian ASCII. UTF-8 adalah pengkodan yang paling dipilih untuk e-mel dan halaman web. |
UTF-16 |
Format pengkodan panjang Unicode 16 adalah pengkodean aksara panjang yang dapat mengkod sepenuhnya repertoire Unicode. UTF-16 digunakan dalam sistem operasi utama dan lingkungan, seperti Microsoft Windows, Java dan .NET. |
Komenari:Aksara awal 128 Unicode (yang sepadan dengan ASCII) menggunakan pengkodean satu bit bayt, yang mempunyai nilai binari yang sama seperti ASCII, sehingga teks ASCII yang sah juga menjadi pengkodean UTF-8 Unicode yang sah.
Pembesarhatan:HTML 4 menyokong UTF-8. HTML 5 menyokong UTF-8 dan UTF-16!
Standard HTML5: Unicode UTF-8
Sebab saiz set aksara dalam ISO-8859 terhadap batas dan tak kompatibel dengan lingkungan multibahasa, Perkongsian Unicode telah merancang Standard Unicode.
Standard Unicode (hampir) mencakup semua aksara, tanda baca dan simbol di dunia.
Unicode menyokong penggunaan teks yang bebas platform dan bahasa untuk pengeluaran, pemindahan dan pengedaran.
Kod pengkodean lalai HTML5 adalah UTF-8.
Jika charset yang digunakan dalam halaman web HTML5 berbeza daripada UTF-8, ia seharusnya dispecifikasikan di markah <meta>, contohnya:
Contoh
<meta charset="ISO-8859-1">
Perbezaan antara Unicode dan UTF-8
Unicode adalah sistem aksara. UTF-8 adalah pengkodean.
Unicode adalah senarai aksara dengan nombor dekad unik (poin kod). A = 65, B = 66, C = 67, ...
Daftar nombor dekad ini mewakili string "hello": 104 101 108 108 111
Pengkodean adalah cara untuk mengubah nombor ini kepada nombor binari untuk disimpan dalam komputer:
Pengkodean UTF-8 akan disimpan seperti ini (binari) untuk "hello": 01101000 01100101 01101100 01101100 01101111
PengkodeanTukar nombor kepada binari.Sistem AksaraTukar aksara kepada nombor.
Kod Aksara UTF-8 HTML5
Bawah ini adalah senarai kod aksara UTF-8 yang disokong oleh HTML5:
Kod Aksara | Dekad | Seksadecimal |
---|---|---|
Kawalan C0 dan Latin Dasar | 0-127 | 0000-007F |
Kawalan C1 dan Sampingan Latin-1 | 128-255 | 0080-00FF |
Latin Diperpanjang-A | 256-383 | 0100-017F |
Latin Diperpanjang-B | 384-591 | 0180-024F |
Penyesuaiantara Spasi | 688-767 | 02B0-02FF |
Tanda Diakritik | 768-879 | 0300-036F |
Greek dan Coptic | 880-1023 | 0370-03FF |
Cyrillic Dasar | 1024-1279 | 0400-04FF |
Penambahan Cyrillic | 1280-1327 | 0500-052F |
Puncak Umum | 8192-8303 | 2000-206F |
Simbol Mata Uang | 8352-8399 | 20A0-20CF |
Simbol Menyerupai Huruf | 8448-8527 | 2100-214F |
Tanduk | 8592-8703 | 2190-21FF |
Operator Matematika | 8704-8959 | 2200-22FF |
Gambar Tangan | 9472-9599 | 2500-257F |
Elemen Blok | 9600-9631 | 2580-259F |
Bentuk Geometri | 9632-9727 | 25A0-25FF |
Simbol Berbagai Macam | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Hal Sebelumnya Simbol HTML
- Hal Berikutnya Dasar Latin