HTML Unicode (UTF-8) İlgili Kılavuz

Unicode Birliği

Unicode Birliği Unicode standardını geliştirmiştir. Hedefleri, standart Unicode dönüşüm formatını (UTF) mevcut karakter kümelerinin yerini almak olmuştur.

Unicode standardı başarılı bir şekilde uygulanmıştır ve HTML, XML, Java, JavaScript, e-posta, ASP, PHP gibi sistemlerde uygulanmıştır. Çoğu işletim sistemi ve tüm modern tarayıcılar Unicode standartlarını desteklemektedir.

Unicode Birliği, önde gelen standart geliştirme organizasyonları (örneğin ISO, W3C ve ECMA) ile işbirliği yapmaktadır.

Unicode karakter kümeleri

Unicode farklı karakter kümeleri ile uygulanabilir. En yaygın kullanılan kodlama UTF-8 ve UTF-16'dır:

Karakter Seti Açıklama
UTF-8

UTF8 karakter uzunluğu 1 ila 4 bayt arasında olabilir.

UTF-8 Unicode standardındaki herhangi bir karakteri temsil edebilir.

UTF-8 ASCII ile geri uyumludur. UTF-8 e-posta ve web sayfalarının tercih edilen kodlamasıdır.

UTF-16

16 bit Unicode dönüşüm formatı, tüm Unicode repertoire'yi kodlayabilen Unicode'nin değişken uzunluklu karakter kodlamasıdır.

UTF-16, Microsoft Windows, Java ve .NET gibi ana işletim sistemleri ve ortamlarda kullanılır.

Açıklama:Unicode'nin ilk 128 karakteri (ASCII ile tek tek karşılaştırılır) tek bir sekiz bit bayt kodlanır, bu sekiz bit bayt ASCII ile aynı ikili değere sahiptir, bu da etkili ASCII metinlerin de etkili UTF-8 kodlaması Unicode olarak kullanılmasını sağlar.

İpucu:HTML 4 UTF-8'yi destekler. HTML 5 UTF-8 ve UTF-16'ı destekler!

HTML5 Standartı: Unicode UTF-8

ISO-8859'deki karakter seti boyutunun sınırlı olması ve çok dilli ortamlarla uyumsuz olması nedeniyle, Unicode Birliği Unicode standardını geliştirdi.

Unicode standardı (neredeyse) dünyanın tüm karakterleri, noktalama işaretleri ve sembolleri kapsar.

Unicode, platform ve dil bağımsız text işleme, saklama ve iletimi destekler.

HTML5'teki varsayılan karakter kodlaması UTF-8'dir.

Eğer HTML5 web sayfası UTF-8 ile farklı karakter setini kullanıyorsa, <meta> etiketinde bu karakter seti belirtilmelidir, örneğin:

Örnek

<meta charset="ISO-8859-1">

Unicode ve UTF-8 arasındaki fark

Unicode karakter setidir. UTF-8 kodlamadır.

Unicode, benzersiz onluk rakam (kod noktası) içeren karakter listesidir. A = 65, B = 66, C = 67, ...。

Bu onluk rakam listesi, "hello" dizgisini temsil eder: 104 101 108 108 111

Kodlama, bu rakamları bilgisayarda saklamak için ikili rakamlara dönüştürme şeklidir:

UTF-8 kodlaması, "hello" kelimesini şu şekilde (ikili) saklar: 01101000 01100101 01101100 01101100 01101111

KodlamaRakamı ikiliye dönüştür.Karakter SetiKarakteri rakama dönüştür.

HTML5 UTF-8 Karakter Kodları

Aşağıdaki tablo, HTML5'nin desteklediği bazı UTF-8 karakter kodlarının listesidir:

Karakter Kodu Onluk Onaltılık
C0 Kontrol ve Temel Latin 0-127 0000-007F
C1 Kontrol ve Latin-1 Ek 128-255 0080-00FF
Latince Genişletilmiş-A 256-383 0100-017F
Latince Genişletilmiş-B 384-591 0180-024F
Boşluk Modifikatörleri 688-767 02B0-02FF
Diyakritik İmler 768-879 0300-036F
Yunanca ve Koptik 880-1023 0370-03FF
Kiril Temel 1024-1279 0400-04FF
Kiril Ek 1280-1327 0500-052F
Genel Parantez 8192-8303 2000-206F
Para Simgeleri 8352-8399 20A0-20CF
Harflik Simgeler 8448-8527 2100-214F
Oğuzlar 8592-8703 2190-21FF
Matematiksel Operatörler 8704-8959 2200-22FF
Kutu Çizimleri 9472-9599 2500-257F
Blok Elemanları 9600-9631 2580-259F
Geometrik Şekiller 9632-9727 25A0-25FF
Çeşitli Simgeler 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF