హెచ్టిఎమ్ఎల్ యూనికోడ్ (UTF-8) రిఫరెన్స్ హాండ్బుక్
- ముంది పేజీ హెచ్టిఎమ్ఎల్ సంకేతాలు
- తరువాతి పేజీ లాటిన్ బేసిక్
Unicode సంఘం
Unicode సంఘం Unicode ప్రమాణాన్ని అభివృద్ధి చేసింది. వారి లక్ష్యం ప్రస్తుత అక్షర కూటములను Unicode ప్రమాణంలోని UTF (Unicode Transformation Format) ద్వారా పునఃస్థాపించడం.
Unicode ప్రమాణం విజయవంతంగా అమలు చేయబడింది మరియు HTML, XML, Java, JavaScript, ఇమెయిల్, ASP, PHP మొదలైన వాటి ద్వారా అమలు చేయబడింది. అనేక ఆపరేటింగ్ సిస్టమ్లు మరియు అన్ని ఆధునిక బ్రౌజర్లలో Unicode ప్రమాణాలను మద్దతు ఇస్తాయి.
Unicode సంఘం ప్రముఖ ప్రమాణాల అభివృద్ధి సంస్థలతో (ఉదా ISO, W3C మరియు ECMA) సహకారం కోసం కలిసిపోతుంది.
Unicode అక్షర కూటము
Unicode వివిధ అక్షర కూటముల ద్వారా అమలు చేయబడవచ్చు. అత్యంత వినియోగించే కోడింగ్ UTF-8 మరియు UTF-16:
అక్షర కూటమి | వివరణ |
---|---|
UTF-8 |
UTF8 లో అక్షరాల పొడవు 1 నుండి 4 బైట్లు వరకు ఉంటాయి. UTF-8 యొక్క అక్షరాలు Unicode ప్రమాణంలో ఏ అక్షరాన్నికైనా ప్రస్తుతించగలవు. UTF-8 వాస్తవానికి ASCII సహాయకం. UTF-8 ఇమెయిల్ మరియు వెబ్ పేజీల ప్రాధానిక కోడింగ్. |
UTF-16 |
16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。 UTF-16 用于主要的操作系统和环境,例如 Microsoft Windows、Java 和 .NET。 |
注释:Unicode 的前 128 个字符(与 ASCII 一一对应)使用单个八位字节编码,这八位字节有与 ASCII 相同的二进制值,从而使有效的 ASCII 文本也成为有效的 UTF-8 编码 Unicode。
提示:HTML 4 支持 UTF-8。 HTML 5 支持 UTF-8 和 UTF-16!
HTML5 标准:Unicode UTF-8
由于 ISO-8859 中的字符集大小受限制,并且不兼容多语言环境,因此 Unicode 联盟开发了 Unicode 标准。
Unicode 标准(几乎)涵盖了世界上所有的字符、标点符号和符号。
యూనికోడ్ ప్లాట్ఫారమ్ మరియు భాషలకు సంబంధించని టెక్స్ట్ ప్రాసెసింగ్, నిల్వ మరియు ట్రాన్స్మిషన్ ను మద్దతు చేస్తుంది.
HTML5 లో అప్రమేయ అక్షర కోడింగ్ UTF-8 ఉంది.
అయితే HTML5 వెబ్ పుటలు UTF-8 అక్షర కూటమిని ఉపయోగించకుండా ఉంటే, <meta> టాగ్లో ఆ అక్షర కూటమిని తెలుపవలసి ఉంటుంది, ఉదాహరణకు:
ఉదాహరణ
<meta charset="ISO-8859-1">
యూనికోడ్ మరియు UTF-8 మధ్య వ్యత్యాసం
యూనికోడ్ అక్షర కూటమి. UTF-8 కోడింగ్.
యూనికోడ్ ప్రతి అక్షరానికి ప్రత్యేకమైన దశమాంశ సంఖ్య (కోడ్ పాయింట్) ఉంది. A = 65, B = 66, C = 67, ...。
ఈ దశమాంశ సంఖ్యల జాబితా వచ్చే స్ట్రింగ్ "hello": 104 101 108 108 111
కోడింగ్ అనేది ఈ సంఖ్యలను కంప్యూటర్లో నిల్వ చేయడానికి బైనరీ సంఖ్యలుగా మార్చే విధం ఉంటుంది:
UTF-8 కోడింగ్ ఈ విధంగా (బైనరీ) "hello" ని నిల్వ చేస్తుంది: 01101000 01100101 01101100 01101100 01101111
కోడింగ్సంఖ్యను బైనరీగా మార్చుము.అక్షర కూటమిఅక్షరాన్ని సంఖ్యగా మార్చుము.
HTML5 UTF-8 అక్షర సంఖ్య
హెచ్ఎంఎల్5 మద్దతు చేసే కొన్ని UTF-8 అక్షర సంఖ్యల జాబితా ఇక్కడ ఉంది:
అక్షర సంఖ్య | దశమాంశం | హెక్సాడెసిమల్ |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
లాటిన్ ఎక్స్టెండెడ్-ఎ | 256-383 | 0100-017F |
లాటిన్ ఎక్స్టెండెడ్-బి | 384-591 | 0180-024F |
స్పేసింగ్ మోడిఫైర్స్ | 688-767 | 02B0-02FF |
డయాక్రిటికల్ మార్క్స్ | 768-879 | 0300-036F |
గ్రీక్ మరియు కోప్టిక్ | 880-1023 | 0370-03FF |
సైరిలిక్ బేసిక్ | 1024-1279 | 0400-04FF |
సైరిలిక్ సప్లమెంట్ | 1280-1327 | 0500-052F |
జనరల్ పంక్షన్ | 8192-8303 | 2000-206F |
కరెన్సీ సింబోల్స్ | 8352-8399 | 20A0-20CF |
లెటర్లైక్ సింబోల్స్ | 8448-8527 | 2100-214F |
ఆర్క్స్ | 8592-8703 | 2190-21FF |
మాథ్మాటికల్ ఆపరేటర్స్ | 8704-8959 | 2200-22FF |
బాక్స్ డ్రాయింగ్స్ | 9472-9599 | 2500-257F |
బ్లాక్ ఎలిమెంట్స్ | 9600-9631 | 2580-259F |
జియోమెట్రిక్ స్కేప్స్ | 9632-9727 | 25A0-25FF |
వివిధ చిహ్నాలు | 9728-9983 | 2600-26FF |
డింగ్బాట్స్ | 9984-10175 | 2700-27BF |
- ముంది పేజీ హెచ్టిఎమ్ఎల్ సంకేతాలు
- తరువాతి పేజీ లాటిన్ బేసిక్