HTML Unicode (UTF-8) ကိုယ်စားပြုခြင်း စာရင်း
- အရှေ့ပိုင်း ပိုင်း HTML သတ်မှတ်ခြင်း
- နောက်ပိုင်း ပိုင်း လစ်ဗက် အခြေခံ
Unicode ပြည်ထောင်စု
Unicode ပြည်ထောင်စု သည် Unicode အချက်အလက် အချက်အလက် ဖွဲ့စည်းရာ အချက်အလက် (UTF) ကို အရှိန်ကျသော အချက်အလက် အစုအဝေး အဖြစ် မှီခိုကြသည်。
Unicode အချက်အလက် အသုံးပြုခြင်း အောင်မြင်ခဲ့ပြီး၊ HTML、XML、Java、JavaScript、အီးလိုင်း、ASP、PHP တို့ ဖြင့် အသုံးပြုခဲ့သည်။ အများပြားစွာ အစိတ်အချုပ် နှင့် အားလုံး အသင်းအဖွဲ့ အတွင်း လည်း Unicode အချက်အလက် အသုံးပြုခြင်း အတွက် အကူအညီ ပြုသည်。
Unicode ပြည်ထောင်စု သည် အသင်းအဖွဲ့များ နှင့် အခြေခံ အဆိုပါ အချက်အလက် ဖွဲ့စည်းရာ အဖွဲ့အစည်း (ဥပမာ ISO、W3C နှင့် ECMA) နှင့် ပူးပေါင်းလျက် လုပ်ကိုင်သည်。
Unicode အချက်အလက် အစုအဝေး
Unicode သည် အခြား အချက်အလက် အစုအဝေး အဖြစ် ဖြစ်ပေါ်လာနိုင်သည်။ အသုံးချခြင်း အများဆုံး အမျိုးအစား ဖြစ်သည်မှာ UTF-8 နှင့် UTF-16 ဖြစ်သည်。
အက္ခရာအသင်း | အကြောင်းကြားချက် |
---|---|
UTF-8 |
UTF8 အကိုးအချုပ် သည် 1 ထိ 4 ဘီတာ အရွယ် ဖြစ်ပါသည်。 UTF-8 သည် Unicode အချက်အလက် အရေးယူဆောင်ရာ အားလုံး ကို ကိုက်ညီစွာ ကိုက်ထားနိုင်သည်。 UTF-8 သည် ASCII နှင့် ကွပ်ကဲပြီး၊ အီးလိုင်း နှင့် ဝတ္ထုပိုင်း အတွက် အကျိုးဆက်ဆံမှု အမျိုးအစားဖြစ်သည်。 |
UTF-16 |
16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。 UTF-16 用于主要的操作系统和环境,例如 Microsoft Windows、Java 和 .NET。 |
注释:Unicode 的前 128 个字符(与 ASCII 一一对应)使用单个八位字节编码,这八位字节有与 ASCII 相同的二进制值,从而使有效的 ASCII 文本也成为有效的 UTF-8 编码 Unicode。
အကြောင်းHTML 4 သည် UTF-8 ကို ထောက်ပံ့ပါသည်။ HTML 5 သည် UTF-8 နှင့် UTF-16 ကို ထောက်ပံ့ပါ
HTML5 အချက်အလက်: Unicode UTF-8
ISO-8859 အက္ခရာအသင်း အရွယ် သည် ကတုန်းဆိုင်ရာ ကတုန်းအောက်ဆိုင်ရာ အက္ခရာ အသင်း အရွယ် အား ကတုန်းဆိုင်ရာ ကတုန်းအောက်ဆိုင်ရာ အက္ခရာ အသင်း နှင့် မတူဘဲဖြစ်သော အခြေခံ ဘာသာစကား အသင်း ဖြစ်သည်။ အက္ခရာအသင်း သည် မည်သည့် ဘာသာစကား အသင်း မှ မပြောင်းလဲခဲ့
Unicode အချက်အလက် သည် (ကျယ်ပြန်) ကမ္ဘာ့ရှိ အက္ခရာ၊ ပုံချင်း နှင့် ပုံစံများ အား အပေါ်လွှတ်ပါ
Unicode သည် ပြည်ပြည်ဆိုင်ရာ ပြင်ကွက် နှင့် ဘာသာစကား မပေါ်လျှက် အက္ခရာ အသုံးချရာ ပြုလုပ်ခြင်း၊ သို့မဟုတ် သို့မဟုတ် အချက်အလက် သို့မဟုတ် အချက်အလက် ကို ချုပ်ထိန်းခြင်း ကို ထောက်ပံ့ပါ
HTML5 တွင် အခြေခံ အောမူအုပ် အဖြစ် UTF-8 ကို အသုံးပြုပါ
HTML5 ဝတ္ထု သည် UTF-8 အက္ခရာအသင်း နှင့် မတူဘဲဖြစ်ချိန်တွင် <meta> အချက်အလက် တွင် အက္ခရာအသင်း ကို သတ်မှတ်ပါ: ဥပမာ
အကြောင်း
<meta charset="ISO-8859-1">
Unicode နှင့် UTF-8 အကြား ကွဲပြားမှု
Unicode သည် အက္ခရာအသင်း ဖြစ်ပါသည်။ UTF-8 သည် အောမူအုပ် ဖြစ်ပါသည်
Unicode သည် ကတုန်းအောက်ဆိုင်ရာ နှစ်ပုံတော် အဖြစ် ကတုန်းအောက်ဆိုင်ရာ အက္ခရာ စာရင်းဖော်ပြထားသည်။ A = 65, B = 66, C = 67, ...。
အောမူအုပ် အဖွဲ့အစည်း သည် "hello" ကို ပြောင်းလဲပါ: 104 101 108 108 111
အောမူအုပ် သည် အနှစ်ပုံတော်ကို နှစ်ပုံတော် အဖြစ် ပြောင်းလဲပြီး ကွန်ပျူတာတွင် သို့မဟုတ် ကျော်ကြားပါ
UTF-8 အောမူအုပ် သည် "hello" ကို နှစ်ပုံတော်အဖြစ် သို့မဟုတ် (နှစ်ပုံတော်) ကို ကျော်ကြားပါ: 01101000 01100101 01101100 01101100 01101111
အောမူအုပ်နှစ်ပုံတော်ကို နှစ်သက်တော်သို့ ပြောင်းလဲပါအက္ခရာအသင်းအက္ခရာကို နှစ်ပုံတော်သို့ ပြောင်းလဲပါ
HTML5 UTF-8 အက္ခရာစက္ခု
အေသလိပ် 5 တွင် ထောက်ပံ့သော UTF-8 အက္ခရာစက္ခု စာရင်းဖော်ပြထားသည့်
အက္ခရာစက္ခု | ပုံတော် | ဟန်ဆီယာ |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- အရှေ့ပိုင်း ပိုင်း HTML သတ်မှတ်ခြင်း
- နောက်ပိုင်း ပိုင်း လစ်ဗက် အခြေခံ