హెచ్టిఎమ్ఎల్ యూనికోడ్ (UTF-8) రిఫరెన్స్ హాండ్బుక్

Unicode సంఘం

Unicode సంఘం Unicode ప్రమాణాన్ని అభివృద్ధి చేసింది. వారి లక్ష్యం ప్రస్తుత అక్షర కూటములను Unicode ప్రమాణంలోని UTF (Unicode Transformation Format) ద్వారా పునఃస్థాపించడం.

Unicode ప్రమాణం విజయవంతంగా అమలు చేయబడింది మరియు HTML, XML, Java, JavaScript, ఇమెయిల్, ASP, PHP మొదలైన వాటి ద్వారా అమలు చేయబడింది. అనేక ఆపరేటింగ్ సిస్టమ్లు మరియు అన్ని ఆధునిక బ్రౌజర్లలో Unicode ప్రమాణాలను మద్దతు ఇస్తాయి.

Unicode సంఘం ప్రముఖ ప్రమాణాల అభివృద్ధి సంస్థలతో (ఉదా ISO, W3C మరియు ECMA) సహకారం కోసం కలిసిపోతుంది.

Unicode అక్షర కూటము

Unicode వివిధ అక్షర కూటముల ద్వారా అమలు చేయబడవచ్చు. అత్యంత వినియోగించే కోడింగ్ UTF-8 మరియు UTF-16:

అక్షర కూటమి వివరణ
UTF-8

UTF8 లో అక్షరాల పొడవు 1 నుండి 4 బైట్లు వరకు ఉంటాయి.

UTF-8 యొక్క అక్షరాలు Unicode ప్రమాణంలో ఏ అక్షరాన్నికైనా ప్రస్తుతించగలవు.

UTF-8 వాస్తవానికి ASCII సహాయకం. UTF-8 ఇమెయిల్ మరియు వెబ్ పేజీల ప్రాధానిక కోడింగ్.

UTF-16

16 位 Unicode 转换格式是 Unicode 的可变长度字符编码,能够对整个 Unicode repertoire 进行编码。

UTF-16 用于主要的操作系统和环境,例如 Microsoft Windows、Java 和 .NET。

注释:Unicode 的前 128 个字符(与 ASCII 一一对应)使用单个八位字节编码,这八位字节有与 ASCII 相同的二进制值,从而使有效的 ASCII 文本也成为有效的 UTF-8 编码 Unicode。

提示:HTML 4 支持 UTF-8。 HTML 5 支持 UTF-8 和 UTF-16!

HTML5 标准:Unicode UTF-8

由于 ISO-8859 中的字符集大小受限制,并且不兼容多语言环境,因此 Unicode 联盟开发了 Unicode 标准。

Unicode 标准(几乎)涵盖了世界上所有的字符、标点符号和符号。

యూనికోడ్ ప్లాట్ఫారమ్ మరియు భాషలకు సంబంధించని టెక్స్ట్ ప్రాసెసింగ్, నిల్వ మరియు ట్రాన్స్మిషన్ ను మద్దతు చేస్తుంది.

HTML5 లో అప్రమేయ అక్షర కోడింగ్ UTF-8 ఉంది.

అయితే HTML5 వెబ్ పుటలు UTF-8 అక్షర కూటమిని ఉపయోగించకుండా ఉంటే, <meta> టాగ్లో ఆ అక్షర కూటమిని తెలుపవలసి ఉంటుంది, ఉదాహరణకు:

ఉదాహరణ

<meta charset="ISO-8859-1">

యూనికోడ్ మరియు UTF-8 మధ్య వ్యత్యాసం

యూనికోడ్ అక్షర కూటమి. UTF-8 కోడింగ్.

యూనికోడ్ ప్రతి అక్షరానికి ప్రత్యేకమైన దశమాంశ సంఖ్య (కోడ్ పాయింట్) ఉంది. A = 65, B = 66, C = 67, ...。

ఈ దశమాంశ సంఖ్యల జాబితా వచ్చే స్ట్రింగ్ "hello": 104 101 108 108 111

కోడింగ్ అనేది ఈ సంఖ్యలను కంప్యూటర్లో నిల్వ చేయడానికి బైనరీ సంఖ్యలుగా మార్చే విధం ఉంటుంది:

UTF-8 కోడింగ్ ఈ విధంగా (బైనరీ) "hello" ని నిల్వ చేస్తుంది: 01101000 01100101 01101100 01101100 01101111

కోడింగ్సంఖ్యను బైనరీగా మార్చుము.అక్షర కూటమిఅక్షరాన్ని సంఖ్యగా మార్చుము.

HTML5 UTF-8 అక్షర సంఖ్య

హెచ్ఎంఎల్5 మద్దతు చేసే కొన్ని UTF-8 అక్షర సంఖ్యల జాబితా ఇక్కడ ఉంది:

అక్షర సంఖ్య దశమాంశం హెక్సాడెసిమల్
C0 Controls and Basic Latin 0-127 0000-007F
C1 Controls and Latin-1 Supplement 128-255 0080-00FF
లాటిన్ ఎక్స్టెండెడ్-ఎ 256-383 0100-017F
లాటిన్ ఎక్స్టెండెడ్-బి 384-591 0180-024F
స్పేసింగ్ మోడిఫైర్స్ 688-767 02B0-02FF
డయాక్రిటికల్ మార్క్స్ 768-879 0300-036F
గ్రీక్ మరియు కోప్టిక్ 880-1023 0370-03FF
సైరిలిక్ బేసిక్ 1024-1279 0400-04FF
సైరిలిక్ సప్లమెంట్ 1280-1327 0500-052F
జనరల్ పంక్షన్ 8192-8303 2000-206F
కరెన్సీ సింబోల్స్ 8352-8399 20A0-20CF
లెటర్లైక్ సింబోల్స్ 8448-8527 2100-214F
ఆర్క్స్ 8592-8703 2190-21FF
మాథ్మాటికల్ ఆపరేటర్స్ 8704-8959 2200-22FF
బాక్స్ డ్రాయింగ్స్ 9472-9599 2500-257F
బ్లాక్ ఎలిమెంట్స్ 9600-9631 2580-259F
జియోమెట్రిక్ స్కేప్స్ 9632-9727 25A0-25FF
వివిధ చిహ్నాలు 9728-9983 2600-26FF
డింగ్బాట్స్ 9984-10175 2700-27BF