HTML Unicode (UTF-8) İlgili Kılavuz

Unicode Birliği

Unicode Birliği Unicode standardını geliştirmiştir. Hedefleri, mevcut karakter kümelerini Unicode standardının Unicode转变 formatı (UTF) ile değiştirmektir.

Unicode standardı başarıyla karşılandı ve HTML, XML, Java, JavaScript, e-posta, ASP, PHP gibi birçok platformda uygulanmıştır. Çoğu işletim sistemi ve tüm modern tarayıcılar Unicode standartlarını destekler.

Unicode Birliği, ISO, W3C ve ECMA gibi önde gelen standart geliştirme organizasyonlarıyla işbirliği yapıyor.

Unicode karakter kümesi

Unicode farklı karakter kümeleri ile uygulanabilir. En yaygın kodlama UTF-8 ve UTF-16'dır:

Karakter Koleksiyonu Açıklama
UTF-8

UTF8 karakter uzunluğu 1 ila 4 bayt arasında olabilir.

UTF-8 Unicode standardındaki herhangi bir karakteri temsil edebilir.

UTF-8 ASCII ile geri uyumludur. UTF-8 e-posta ve web sayfalarının tercih edilen kodlamasıdır.

UTF-16

16 bit Unicode dönüşüm formatı, tüm Unicode repertuvarını kodlayabilen Unicode'nın değişken uzunluklu karakter kodlamasıdır.

UTF-16, Microsoft Windows, Java ve .NET gibi ana işletim sistemleri ve ortamlar için kullanılır.

Açıklama:Unicode'nın ilk 128 karakteri (ASCII ile tek tek karşılaştırılır) tek bir sekiz bit bayt kodlanır, bu sekiz bit bayt ASCII ile aynı ikili değere sahiptir, bu da etkili ASCII metninin de etkili UTF-8 kodlaması Unicode'su haline gelir.

İpucu:HTML 4 UTF-8'yi destekler. HTML 5 UTF-8 ve UTF-16'ı destekler!

HTML5 Standartı: Unicode UTF-8

ISO-8859 karakter kümesi büyüklüğü sınırlıdır ve çok dilli ortamlarla uyumsuzdur, bu yüzden Unicode Birliği Unicode standardını geliştirdi.

Unicode standardı (neredeyse) dünyadaki tüm karakterleri, noktalama işaretlerini ve sembolleri kapsar.

Unicode, platform ve dil bağımsız olarak metin işleme, saklama ve iletimi destekler.

HTML5'teki varsayılan karakter kodlaması UTF-8'dir.

Eğer HTML5 web sayfası kullandığı karakter kümesi UTF-8 ile farklıysa, <meta> etiketinde bu karakter kümesi belirtilmelidir, örneğin:

Örnek

<meta charset="ISO-8859-1">

Unicode ve UTF-8 arasındaki fark

Unicode, karakter koleksiyonudur. UTF-8, kodlamadır.

Unicode, benzersiz ondalık rakamlara (kod noktasına) sahip karakter listesidir. A = 65, B = 66, C = 67, ...。

Bu ondalık rakam listesi, "hello" dizgisini temsil eder: 104 101 108 108 111

Kodlama, bu rakamları bilgisayarda saklamak için ikili rakamlara dönüştürme şeklidir:

UTF-8 kodlama, "hello" kelimesini şu şekilde (ikili) saklar: 01101000 01100101 01101100 01101100 01101111

KodlamaRakamı ikiliye dönüştürün.Karakter KoleksiyonuKarakteri rakama dönüştürün.

HTML5 UTF-8 Karakter Kodları

Aşağıdaki tablo, HTML5'nin desteklediği bazı UTF-8 karakter kodlarının listesidir:

Karakter Kodu Ondalık Onaltılık
C0 Kontroller ve Temel Latin 0-127 0000-007F
C1 Kontroller ve Latin-1 Ek 128-255 0080-00FF
Latince Genişletilmiş-A 256-383 0100-017F
Latince Genişletilmiş-B 384-591 0180-024F
Boşluk Modifiyerleri 688-767 02B0-02FF
Diyakritik İkonlar 768-879 0300-036F
Yunanca ve Koptik 880-1023 0370-03FF
Kiril Temel 1024-1279 0400-04FF
Kiril İkincil 1280-1327 0500-052F
Genel Parantez 8192-8303 2000-206F
Para Sembolleri 8352-8399 20A0-20CF
Harflik Semboller 8448-8527 2100-214F
Oğuzlar 8592-8703 2190-21FF
Matematiksel Operatörler 8704-8959 2200-22FF
Kutu Çizgileri 9472-9599 2500-257F
Blok Elemanları 9600-9631 2580-259F
Geometrik Şekiller 9632-9727 25A0-25FF
Çeşitli Semboller 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF