Mwongozo wa hisia za Unicode (UTF-8) ya HTML

Kampeni ya Unicode

Kampeni ya Unicode inakusanya standardi ya Unicode. Matokeo yao ni kusitokeza kwa muundo wa utunzi wa Unicode (UTF) wa kawaida kwa kusaidia kawaida ya heriko mbalimbali.

Standardi ya Unicode imekamilika na imewekwa kwa HTML, XML, Java, JavaScript, barua pepe, ASP, PHP na mengine mengine. Inasimamia standardi ya Unicode kwenye vifaa vya mawasiliano vya kawaida na vifaa vya kufungua vijana vya kawaida vya kila wakati.

Kampeni ya Unicode inashiriki na vifungo vya uharibifu vya mawasiliano na vifungo vya uharibifu vya standardi vya kielektroniki (kama ISO, W3C na ECMA).

Kawaida ya Unicode

Unicode inaweza kufanyishwa kwa kawaida ya heriko mbalimbali. Inayotumiwa zaidi ni UTF-8 na UTF-16:

Kipaa cha Heri Muhtasari
UTF-8

Ukubwa wa heriko kwenye UTF8 kinaweza kuwa kati ya 1 hadi 4 heriko.

UTF-8 inaweza kutoa harakati yote ya Unicode Standard.

UTF-8 inayopangi ASCII. UTF-8 inaonekana wa inaendelea ya inasifanya kwa barua pepe na vijana vya mtandao.

UTF-16

16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。

UTF-16 inatumiwa kwa programu za kawaida na mazingira, kama Microsoft Windows, Java na .NET.

Mafano:Heri 128 za Unicode (kama kina ASCII) inatumia kina wa kibuni mmoja, kina hizi zinana na thamani ya binari kama ASCII, inafaa kwamba matukio ya ASCII ya heri yana uwezo wa kufadhiwa kama mchekesho wa UTF-8 wa Unicode.

Msaada:HTML 4 inasimamia UTF-8. HTML 5 inasimamia UTF-8 na UTF-16!

Mada ya HTML5: Unicode UTF-8

Kwa sababu kipaa cha heri cha ISO-8859 kinahatarisha ukubwa na kinasababisha kumaliza kwa mazingira ya lugha ya kawaida, Barabara ya Unicode inatokana na mada ya Unicode.

Mada ya Unicode (heri) inaonekana kwa kila heri, heri na heri ya dunia.

Unicode inasimamia kusoma, kuhifadhi na kusafiri ya matukio wa heri kwa kila programu na lugha.

Kipimo cha kuzingatia cha kwa HTML5 ni UTF-8.

Ikiwa kipaa cha heri cha tovuti ya HTML5 haujuiwa kama UTF-8, inafaa kuandika kipaa cha heri huo katika kipya cha <meta>, kama ni:

Mfano

<meta charset="ISO-8859-1">

Mfano wa Unicode na UTF-8

Unicode ni kipaa cha heri. UTF-8 ni mchekesho.

Unicode inaorodhesha kipaa cha heri na namba pekee (kati cha heri) ya kila heri. A = 65, B = 66, C = 67, ...。

Tafanua ya namba za sifuri hii inamueleza stringi 'hello': 104 101 108 108 111

Mchekesho ni mpangilio wa kubadilisha namba kwa binari kwa kuhifadhi katika kompyuta:

Mchekesho wa UTF-8 unahifadhiwa kama hivi (binari) kwa 'hello': 01101000 01100101 01101100 01101100 01101111

MchekeshoKubadilisha namba kwa binari.Kipaa cha HeriKubadilisha heri kwa namba.

Kipimo cha Heri cha UTF-8

Tafanua hii inaorodhesha kipimo cha heri cha UTF-8 ambao HTML5 inasimamia kwa uwanja wa tafuta:

Kipimo cha Heri Sifuri Safarau
C0 Kipimo na Kifaa cha Kati cha Kati cha Kati 0-127 0000-007F
Kipimo na Kifaa cha Kati cha Kati na Kifaa cha Kati cha Kati 128-255 0080-00FF
Mifano ya Latin ya kuzingatia-A 256-383 0100-017F
Mifano ya Latin ya kuzingatia-B 384-591 0180-024F
Mifano ya kina ya kawaida 688-767 02B0-02FF
Mifano ya kina ya kawaida 768-879 0300-036F
Mifano ya Greek na Coptic 880-1023 0370-03FF
Mifano ya Cyrillic ya kawaida 1024-1279 0400-04FF
Mifano ya Cyrillic ya kuzingatia 1280-1327 0500-052F
Mifano ya kina ya kawaida 8192-8303 2000-206F
Mifano ya symbols ya nyingine 8352-8399 20A0-20CF
Mifano ya symbols ya harufu 8448-8527 2100-214F
Mifano ya kifungu 8592-8703 2190-21FF
Mifano ya mataba ya sayansi 8704-8959 2200-22FF
Mifano ya kichwa cha ukweli 9472-9599 2500-257F
Mifano ya kina 9600-9631 2580-259F
Mifano ya muundo 9632-9727 25A0-25FF
Mifano ya symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF