HTML Unicode (UTF-8) పరిచయపు పుస్తకం
- ముంది పేజీ HTML చిహ్నాలు
- తదుపరి పేజీ లాటిన్ బేసిక్
Unicode సంఘం
Unicode సంఘం Unicode ప్రమాణాన్ని అభివృద్ధి చేసింది. వారి లక్ష్యం ప్రస్తుత చరిత్రలను ప్రమాణంగా ప్రతిస్థాపించడం ఉంది
Unicode ప్రమాణం విజయవంతంగా అమలు చేయబడింది మరియు HTML, XML, Java, JavaScript, ఇమెయిల్, ASP, PHP మొదలైన వాటి ద్వారా అమలు చేయబడింది. అనేక ఆపరేటింగ్ సిస్టమ్స్ మరియు అన్ని ఆధునిక బ్రౌజర్లలో Unicode ప్రమాణాలు మద్దతు అవుతున్నాయి
Unicode సంఘం ప్రముఖ ప్రమాణాల అభివృద్ధి సంస్థల (ఉదా ISO, W3C మరియు ECMA) తో సహకారం పెట్టుతుంది
Unicode చరిత్రలు
Unicode వివిధ చరిత్రల ద్వారా అమలు చేయబడవచ్చు. అత్యంత ఉపయోగించే కోడింగ్ UTF-8 మరియు UTF-16 ఉంటాయి:
అక్షరసమాహారం | వివరణ |
---|---|
UTF-8 |
UTF8 లో అక్షరాల పొడవు 1 నుండి 4 బైట్లు వరకు ఉంటవచ్చు UTF-8 లో అక్షరాల పొడవు 1 నుండి 4 బైట్లు వరకు ఉంటవచ్చు UTF-8 వాస్తవానికి ASCII తో సహకరిస్తుంది. UTF-8 ఇమెయిల్స్ మరియు వెబ్ పేజీలకు ప్రాధాన్య కోడింగ్ ఇంకా ఉంది |
UTF-16 |
16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。 UTF-16 ప్రధాన ఆపరేటింగ్ సిస్టమ్స్ మరియు ఎన్విరాన్మెంట్స్ కోసం ఉపయోగిస్తాయి, ఉదాహరణకు Microsoft Windows, Java మరియు .NET. |
ప్రత్యామ్నాయంయూనికోడ్ మొదటి 128 అక్షరాలు (ఏసీఐ కాకుండా) ఒకే ఎన్నికబిట్ కోడింగ్ ఉపయోగిస్తాయి, ఈ ఎన్నికబిట్లు ఏసీఐ బైనరీ విలువలను కలిగి ఉంటాయి, అందువల్ల విలువైన ఏసీఐ టెక్స్ట్ కూడా విలువైన UTF-8 కోడింగ్ ఉంటుంది.
సూచనహెచ్ఎంఎల్4 ప్రమాణం UTF-8 ను మద్దతు చేస్తుంది. హెచ్ఎంఎల్5 ప్రమాణం UTF-8 మరియు UTF-16 ను మద్దతు చేస్తుంది!
హెచ్ఎంఎల్5 ప్రమాణం: యూనికోడ్ UTF-8
ISO-8859 అక్షర సమాహారం పరిమితితో మరియు బహుభాషా పరిస్థితిలో సహకరించనిది కావడంతో యూనికోడ్ అసోసియేషన్ యూనికోడ్ ప్రమాణాన్ని అభివృద్ధిపరచింది.
యూనికోడ్ ప్రమాణం (దాదాపు) ప్రపంచంలో అన్ని అక్షరాలు, పంక్తి సంజ్ఞలు మరియు సంకేతాలను చేరుస్తుంది.
యూనికోడ్ ప్లాట్ఫారమ్ మరియు భాషా పరంగా స్వతంత్రమైన టెక్స్ట్ ప్రాసెసింగ్, స్టోరేజ్ మరియు ట్రాన్స్మిషన్ ను మద్దతు చేస్తుంది.
హెచ్ఎంఎల్5 లో అప్రమేయ అక్షర కోడింగ్ UTF-8.
అయితే HTML5 వెబ్సైట్ వాడుతున్న అక్షర సమాహారం UTF-8 కాదు, అప్పుడు <meta> టాగ్లో దానిని నిర్దేశించాలి, ఉదాహరణకు:
ఉదాహరణ
<meta charset="ISO-8859-1">
యూనికోడ్ మరియు UTF-8 మధ్య వ్యత్యాసం
యూనికోడ్ అక్షర సమాహారం. UTF-8 కోడింగ్.
యూనికోడ్ ప్రతి అక్షరానికి ప్రత్యేకమైన డిసిమల్ సంఖ్య (కోడ్ పాయింట్) ఉంటుంది. A = 65, B = 66, C = 67, ...。
ఈ డిసిమల్ సంఖ్యల జాబితా పదం "hello": 104 101 108 108 111
కోడింగ్ ఇది ఈ సంఖ్యలను కంప్యూటర్లో నిలుస్తున్న బైనరీ సంఖ్యలుగా మార్చే రీతి:
UTF-8 కోడింగ్ ఇలా నిలుస్తుంది (బైనరీగా) "hello": 01101000 01100101 01101100 01101100 01101111
కోడింగ్సంఖ్యను బైనరీగా మార్చండి.అక్షరసమాహారంఅక్షరాన్ని సంఖ్యగా మార్చండి.
హెచ్ఎంఎల్5 UTF-8 అక్షర సంఖ్య
హెచ్ఎంఎల్5 మద్దతు చేసే కొన్ని UTF-8 అక్షర సంఖ్యల జాబితా ఇక్కడ ఉంది:
అక్షర సంఖ్య | డిసిమల్ | హెక్సడెసిమల్ |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
లాటిన్ ఎక్స్టెండెడ్-A | 256-383 | 0100-017F |
లాటిన్ ఎక్స్టెండెడ్-B | 384-591 | 0180-024F |
స్పేసింగ్ మోడిఫైర్స్ | 688-767 | 02B0-02FF |
డయాక్రిటికల్ మార్క్స్ | 768-879 | 0300-036F |
గ్రీక్ మరియు కొప్టిక్ | 880-1023 | 0370-03FF |
సైరిలిక్ బేసిక్ | 1024-1279 | 0400-04FF |
సైరిలిక్ సప్లమెంట్ | 1280-1327 | 0500-052F |
జనరల్ పంక్షన్స్ | 8192-8303 | 2000-206F |
కరెన్సీ సంకేతాలు | 8352-8399 | 20A0-20CF |
లెటర్లైక్ సంకేతాలు | 8448-8527 | 2100-214F |
ఆర్క్స్ | 8592-8703 | 2190-21FF |
మాథ్మాటికల్ ఆపరేటర్స్ | 8704-8959 | 2200-22FF |
బాక్స్ డ్రాయింగ్స్ | 9472-9599 | 2500-257F |
బ్లాక్ ఎలిమెంట్స్ | 9600-9631 | 2580-259F |
జియోమెట్రిక్ ఆకృతులు | 9632-9727 | 25A0-25FF |
వివిధ సంకేతాలు | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- ముంది పేజీ HTML చిహ్నాలు
- తదుపరి పేజీ లాటిన్ బేసిక్