HTML Unicode (UTF-8) İlgili Kılavuz
- Önceki Sayfa HTML Sembolleri
- Sonraki Sayfa Latince Temel
Unicode Birliği
Unicode Birliği Unicode standardını geliştirmiştir. Hedefleri, mevcut karakter kümelerini Unicode standardının Unicode转变 formatı (UTF) ile değiştirmektir.
Unicode standardı başarıyla karşılandı ve HTML, XML, Java, JavaScript, e-posta, ASP, PHP gibi birçok platformda uygulanmıştır. Çoğu işletim sistemi ve tüm modern tarayıcılar Unicode standartlarını destekler.
Unicode Birliği, ISO, W3C ve ECMA gibi önde gelen standart geliştirme organizasyonlarıyla işbirliği yapıyor.
Unicode karakter kümesi
Unicode farklı karakter kümeleri ile uygulanabilir. En yaygın kodlama UTF-8 ve UTF-16'dır:
Karakter Koleksiyonu | Açıklama |
---|---|
UTF-8 |
UTF8 karakter uzunluğu 1 ila 4 bayt arasında olabilir. UTF-8 Unicode standardındaki herhangi bir karakteri temsil edebilir. UTF-8 ASCII ile geri uyumludur. UTF-8 e-posta ve web sayfalarının tercih edilen kodlamasıdır. |
UTF-16 |
16 bit Unicode dönüşüm formatı, tüm Unicode repertuvarını kodlayabilen Unicode'nın değişken uzunluklu karakter kodlamasıdır. UTF-16, Microsoft Windows, Java ve .NET gibi ana işletim sistemleri ve ortamlar için kullanılır. |
Açıklama:Unicode'nın ilk 128 karakteri (ASCII ile tek tek karşılaştırılır) tek bir sekiz bit bayt kodlanır, bu sekiz bit bayt ASCII ile aynı ikili değere sahiptir, bu da etkili ASCII metninin de etkili UTF-8 kodlaması Unicode'su haline gelir.
İpucu:HTML 4 UTF-8'yi destekler. HTML 5 UTF-8 ve UTF-16'ı destekler!
HTML5 Standartı: Unicode UTF-8
ISO-8859 karakter kümesi büyüklüğü sınırlıdır ve çok dilli ortamlarla uyumsuzdur, bu yüzden Unicode Birliği Unicode standardını geliştirdi.
Unicode standardı (neredeyse) dünyadaki tüm karakterleri, noktalama işaretlerini ve sembolleri kapsar.
Unicode, platform ve dil bağımsız olarak metin işleme, saklama ve iletimi destekler.
HTML5'teki varsayılan karakter kodlaması UTF-8'dir.
Eğer HTML5 web sayfası kullandığı karakter kümesi UTF-8 ile farklıysa, <meta> etiketinde bu karakter kümesi belirtilmelidir, örneğin:
Örnek
<meta charset="ISO-8859-1">
Unicode ve UTF-8 arasındaki fark
Unicode, karakter koleksiyonudur. UTF-8, kodlamadır.
Unicode, benzersiz ondalık rakamlara (kod noktasına) sahip karakter listesidir. A = 65, B = 66, C = 67, ...。
Bu ondalık rakam listesi, "hello" dizgisini temsil eder: 104 101 108 108 111
Kodlama, bu rakamları bilgisayarda saklamak için ikili rakamlara dönüştürme şeklidir:
UTF-8 kodlama, "hello" kelimesini şu şekilde (ikili) saklar: 01101000 01100101 01101100 01101100 01101111
KodlamaRakamı ikiliye dönüştürün.Karakter KoleksiyonuKarakteri rakama dönüştürün.
HTML5 UTF-8 Karakter Kodları
Aşağıdaki tablo, HTML5'nin desteklediği bazı UTF-8 karakter kodlarının listesidir:
Karakter Kodu | Ondalık | Onaltılık |
---|---|---|
C0 Kontroller ve Temel Latin | 0-127 | 0000-007F |
C1 Kontroller ve Latin-1 Ek | 128-255 | 0080-00FF |
Latince Genişletilmiş-A | 256-383 | 0100-017F |
Latince Genişletilmiş-B | 384-591 | 0180-024F |
Boşluk Modifiyerleri | 688-767 | 02B0-02FF |
Diyakritik İkonlar | 768-879 | 0300-036F |
Yunanca ve Koptik | 880-1023 | 0370-03FF |
Kiril Temel | 1024-1279 | 0400-04FF |
Kiril İkincil | 1280-1327 | 0500-052F |
Genel Parantez | 8192-8303 | 2000-206F |
Para Sembolleri | 8352-8399 | 20A0-20CF |
Harflik Semboller | 8448-8527 | 2100-214F |
Oğuzlar | 8592-8703 | 2190-21FF |
Matematiksel Operatörler | 8704-8959 | 2200-22FF |
Kutu Çizgileri | 9472-9599 | 2500-257F |
Blok Elemanları | 9600-9631 | 2580-259F |
Geometrik Şekiller | 9632-9727 | 25A0-25FF |
Çeşitli Semboller | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Önceki Sayfa HTML Sembolleri
- Sonraki Sayfa Latince Temel