HTML Unicode (UTF-8) İlgili Kılavuz
- Önceki Sayfa HTML Simgeleri
- Sonraki Sayfa Latince Temel
Unicode Birliği
Unicode Birliği Unicode standardını geliştirmiştir. Hedefleri, standart Unicode dönüşüm formatını (UTF) mevcut karakter kümelerinin yerini almak olmuştur.
Unicode standardı başarılı bir şekilde uygulanmıştır ve HTML, XML, Java, JavaScript, e-posta, ASP, PHP gibi sistemlerde uygulanmıştır. Çoğu işletim sistemi ve tüm modern tarayıcılar Unicode standartlarını desteklemektedir.
Unicode Birliği, önde gelen standart geliştirme organizasyonları (örneğin ISO, W3C ve ECMA) ile işbirliği yapmaktadır.
Unicode karakter kümeleri
Unicode farklı karakter kümeleri ile uygulanabilir. En yaygın kullanılan kodlama UTF-8 ve UTF-16'dır:
Karakter Seti | Açıklama |
---|---|
UTF-8 |
UTF8 karakter uzunluğu 1 ila 4 bayt arasında olabilir. UTF-8 Unicode standardındaki herhangi bir karakteri temsil edebilir. UTF-8 ASCII ile geri uyumludur. UTF-8 e-posta ve web sayfalarının tercih edilen kodlamasıdır. |
UTF-16 |
16 bit Unicode dönüşüm formatı, tüm Unicode repertoire'yi kodlayabilen Unicode'nin değişken uzunluklu karakter kodlamasıdır. UTF-16, Microsoft Windows, Java ve .NET gibi ana işletim sistemleri ve ortamlarda kullanılır. |
Açıklama:Unicode'nin ilk 128 karakteri (ASCII ile tek tek karşılaştırılır) tek bir sekiz bit bayt kodlanır, bu sekiz bit bayt ASCII ile aynı ikili değere sahiptir, bu da etkili ASCII metinlerin de etkili UTF-8 kodlaması Unicode olarak kullanılmasını sağlar.
İpucu:HTML 4 UTF-8'yi destekler. HTML 5 UTF-8 ve UTF-16'ı destekler!
HTML5 Standartı: Unicode UTF-8
ISO-8859'deki karakter seti boyutunun sınırlı olması ve çok dilli ortamlarla uyumsuz olması nedeniyle, Unicode Birliği Unicode standardını geliştirdi.
Unicode standardı (neredeyse) dünyanın tüm karakterleri, noktalama işaretleri ve sembolleri kapsar.
Unicode, platform ve dil bağımsız text işleme, saklama ve iletimi destekler.
HTML5'teki varsayılan karakter kodlaması UTF-8'dir.
Eğer HTML5 web sayfası UTF-8 ile farklı karakter setini kullanıyorsa, <meta> etiketinde bu karakter seti belirtilmelidir, örneğin:
Örnek
<meta charset="ISO-8859-1">
Unicode ve UTF-8 arasındaki fark
Unicode karakter setidir. UTF-8 kodlamadır.
Unicode, benzersiz onluk rakam (kod noktası) içeren karakter listesidir. A = 65, B = 66, C = 67, ...。
Bu onluk rakam listesi, "hello" dizgisini temsil eder: 104 101 108 108 111
Kodlama, bu rakamları bilgisayarda saklamak için ikili rakamlara dönüştürme şeklidir:
UTF-8 kodlaması, "hello" kelimesini şu şekilde (ikili) saklar: 01101000 01100101 01101100 01101100 01101111
KodlamaRakamı ikiliye dönüştür.Karakter SetiKarakteri rakama dönüştür.
HTML5 UTF-8 Karakter Kodları
Aşağıdaki tablo, HTML5'nin desteklediği bazı UTF-8 karakter kodlarının listesidir:
Karakter Kodu | Onluk | Onaltılık |
---|---|---|
C0 Kontrol ve Temel Latin | 0-127 | 0000-007F |
C1 Kontrol ve Latin-1 Ek | 128-255 | 0080-00FF |
Latince Genişletilmiş-A | 256-383 | 0100-017F |
Latince Genişletilmiş-B | 384-591 | 0180-024F |
Boşluk Modifikatörleri | 688-767 | 02B0-02FF |
Diyakritik İmler | 768-879 | 0300-036F |
Yunanca ve Koptik | 880-1023 | 0370-03FF |
Kiril Temel | 1024-1279 | 0400-04FF |
Kiril Ek | 1280-1327 | 0500-052F |
Genel Parantez | 8192-8303 | 2000-206F |
Para Simgeleri | 8352-8399 | 20A0-20CF |
Harflik Simgeler | 8448-8527 | 2100-214F |
Oğuzlar | 8592-8703 | 2190-21FF |
Matematiksel Operatörler | 8704-8959 | 2200-22FF |
Kutu Çizimleri | 9472-9599 | 2500-257F |
Blok Elemanları | 9600-9631 | 2580-259F |
Geometrik Şekiller | 9632-9727 | 25A0-25FF |
Çeşitli Simgeler | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- Önceki Sayfa HTML Simgeleri
- Sonraki Sayfa Latince Temel