HTML Unicode (UTF-8) పరిచయపు పుస్తకం

Unicode సంఘం

Unicode సంఘం Unicode ప్రమాణాన్ని అభివృద్ధి చేసింది. వారి లక్ష్యం ప్రస్తుత చరిత్రలను ప్రమాణంగా ప్రతిస్థాపించడం ఉంది

Unicode ప్రమాణం విజయవంతంగా అమలు చేయబడింది మరియు HTML, XML, Java, JavaScript, ఇమెయిల్, ASP, PHP మొదలైన వాటి ద్వారా అమలు చేయబడింది. అనేక ఆపరేటింగ్ సిస్టమ్స్ మరియు అన్ని ఆధునిక బ్రౌజర్లలో Unicode ప్రమాణాలు మద్దతు అవుతున్నాయి

Unicode సంఘం ప్రముఖ ప్రమాణాల అభివృద్ధి సంస్థల (ఉదా ISO, W3C మరియు ECMA) తో సహకారం పెట్టుతుంది

Unicode చరిత్రలు

Unicode వివిధ చరిత్రల ద్వారా అమలు చేయబడవచ్చు. అత్యంత ఉపయోగించే కోడింగ్ UTF-8 మరియు UTF-16 ఉంటాయి:

అక్షరసమాహారం వివరణ
UTF-8

UTF8 లో అక్షరాల పొడవు 1 నుండి 4 బైట్లు వరకు ఉంటవచ్చు

UTF-8 లో అక్షరాల పొడవు 1 నుండి 4 బైట్లు వరకు ఉంటవచ్చు

UTF-8 వాస్తవానికి ASCII తో సహకరిస్తుంది. UTF-8 ఇమెయిల్స్ మరియు వెబ్ పేజీలకు ప్రాధాన్య కోడింగ్ ఇంకా ఉంది

UTF-16

16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。

UTF-16 ప్రధాన ఆపరేటింగ్ సిస్టమ్స్ మరియు ఎన్విరాన్మెంట్స్ కోసం ఉపయోగిస్తాయి, ఉదాహరణకు Microsoft Windows, Java మరియు .NET.

ప్రత్యామ్నాయంయూనికోడ్ మొదటి 128 అక్షరాలు (ఏసీఐ కాకుండా) ఒకే ఎన్నికబిట్ కోడింగ్ ఉపయోగిస్తాయి, ఈ ఎన్నికబిట్లు ఏసీఐ బైనరీ విలువలను కలిగి ఉంటాయి, అందువల్ల విలువైన ఏసీఐ టెక్స్ట్ కూడా విలువైన UTF-8 కోడింగ్ ఉంటుంది.

సూచనహెచ్ఎంఎల్4 ప్రమాణం UTF-8 ను మద్దతు చేస్తుంది. హెచ్ఎంఎల్5 ప్రమాణం UTF-8 మరియు UTF-16 ను మద్దతు చేస్తుంది!

హెచ్ఎంఎల్5 ప్రమాణం: యూనికోడ్ UTF-8

ISO-8859 అక్షర సమాహారం పరిమితితో మరియు బహుభాషా పరిస్థితిలో సహకరించనిది కావడంతో యూనికోడ్ అసోసియేషన్ యూనికోడ్ ప్రమాణాన్ని అభివృద్ధిపరచింది.

యూనికోడ్ ప్రమాణం (దాదాపు) ప్రపంచంలో అన్ని అక్షరాలు, పంక్తి సంజ్ఞలు మరియు సంకేతాలను చేరుస్తుంది.

యూనికోడ్ ప్లాట్ఫారమ్ మరియు భాషా పరంగా స్వతంత్రమైన టెక్స్ట్ ప్రాసెసింగ్, స్టోరేజ్ మరియు ట్రాన్స్మిషన్ ను మద్దతు చేస్తుంది.

హెచ్ఎంఎల్5 లో అప్రమేయ అక్షర కోడింగ్ UTF-8.

అయితే HTML5 వెబ్సైట్ వాడుతున్న అక్షర సమాహారం UTF-8 కాదు, అప్పుడు <meta> టాగ్లో దానిని నిర్దేశించాలి, ఉదాహరణకు:

ఉదాహరణ

<meta charset="ISO-8859-1">

యూనికోడ్ మరియు UTF-8 మధ్య వ్యత్యాసం

యూనికోడ్ అక్షర సమాహారం. UTF-8 కోడింగ్.

యూనికోడ్ ప్రతి అక్షరానికి ప్రత్యేకమైన డిసిమల్ సంఖ్య (కోడ్ పాయింట్) ఉంటుంది. A = 65, B = 66, C = 67, ...。

ఈ డిసిమల్ సంఖ్యల జాబితా పదం "hello": 104 101 108 108 111

కోడింగ్ ఇది ఈ సంఖ్యలను కంప్యూటర్లో నిలుస్తున్న బైనరీ సంఖ్యలుగా మార్చే రీతి:

UTF-8 కోడింగ్ ఇలా నిలుస్తుంది (బైనరీగా) "hello": 01101000 01100101 01101100 01101100 01101111

కోడింగ్సంఖ్యను బైనరీగా మార్చండి.అక్షరసమాహారంఅక్షరాన్ని సంఖ్యగా మార్చండి.

హెచ్ఎంఎల్5 UTF-8 అక్షర సంఖ్య

హెచ్ఎంఎల్5 మద్దతు చేసే కొన్ని UTF-8 అక్షర సంఖ్యల జాబితా ఇక్కడ ఉంది:

అక్షర సంఖ్య డిసిమల్ హెక్సడెసిమల్
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
లాటిన్ ఎక్స్టెండెడ్-A 256-383 0100-017F
లాటిన్ ఎక్స్టెండెడ్-B 384-591 0180-024F
స్పేసింగ్ మోడిఫైర్స్ 688-767 02B0-02FF
డయాక్రిటికల్ మార్క్స్ 768-879 0300-036F
గ్రీక్ మరియు కొప్టిక్ 880-1023 0370-03FF
సైరిలిక్ బేసిక్ 1024-1279 0400-04FF
సైరిలిక్ సప్లమెంట్ 1280-1327 0500-052F
జనరల్ పంక్షన్స్ 8192-8303 2000-206F
కరెన్సీ సంకేతాలు 8352-8399 20A0-20CF
లెటర్లైక్ సంకేతాలు 8448-8527 2100-214F
ఆర్క్స్ 8592-8703 2190-21FF
మాథ్మాటికల్ ఆపరేటర్స్ 8704-8959 2200-22FF
బాక్స్ డ్రాయింగ్స్ 9472-9599 2500-257F
బ్లాక్ ఎలిమెంట్స్ 9600-9631 2580-259F
జియోమెట్రిక్ ఆకృతులు 9632-9727 25A0-25FF
వివిధ సంకేతాలు 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF