HTML Unicode (UTF-8) रेफरेंस मैनुअल
- पिछला पृष्ठ HTML संकेत
- अगला पृष्ठ लातीनी आधार
यूनिकोड फेडरेशन
यूनिकोड फेडरेशन ने Unicode मानक विकसित किया है। उनका लक्ष्य इसके मानक यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट (UTF) के माध्यम से मौजूदा अक्षर सेट को प्रतिस्थापित करना है
यूनिकोड मानक सफलता प्राप्त कर चुका है और HTML, XML, Java, JavaScript, ईमेल, ASP, PHP आदि के माध्यम से व्यवस्थित किया गया है। कई ऑपरेटिंग सिस्टमों और सभी आधुनिक ब्राउज़रों में Unicode मानक का समर्थन है
यूनिकोड फेडरेशन एक अग्रणी मानक विकास संगठन (जैसे ISO, W3C और ECMA) के साथ सहयोग करती है
यूनिकोड अक्षर सेट
यूनिकोड को विभिन्न अक्षर सेटों के माध्यम से प्राप्त किया जा सकता है। सबसे आम संकेतकों में UTF-8 और UTF-16 हैं:
अक्षर समूह | व्याख्या |
---|---|
UTF-8 |
UTF8 में अक्षर की लंबाई 1 से 4 बाइट तक हो सकती है UTF-8 यूनिकोड मानक के किसी भी अक्षर को प्रस्तुत कर सकता है UTF-8 पूर्वापरिणाम ASCII है। UTF-8 ईमेल और वेब पृष्ठों के लिए पसंदीदा संकेतकों है |
UTF-16 |
16 बिट Unicode रूपांतर फॉर्मेट Unicode का विकल्पीय चरित्र एनकोडिंग है, जो पूरे Unicode repertoire को एनकोड करने में सक्षम है。 UTF-16 प्रमुख ऑपरेटिंग सिस्टमों और इनवायरन्मेंटों (जैसे Microsoft Windows, Java और .NET) के लिए इस्तेमाल किया जाता है。 |
टिप्पणी:Unicode के पहले 128 अक्षर (ASCII के साथ एक-एक से मेल खाते है) एकल आठ-बाइट एनकोडिंग का उपयोग करते हैं, ये आठ-बाइटों का द्विपदांक मूल्य ASCII के समान है, इसलिए प्रभावी ASCII टेक्स्ट भी वैध UTF-8 एनकोडिंग है।
सूचना:HTML 4 UTF-8 का समर्थन करता है। HTML 5 UTF-8 और UTF-16 का समर्थन करता है!
HTML5 मानक: Unicode UTF-8
ISO-8859 में अक्षर समूह के आकार के लिए सीमा है और बहुभाषी पर्यावरण के साथ असंगत है, इसलिए Unicode संघ ने Unicode मानक विकसित किया।
Unicode मानक (लगभग) दुनिया के सभी अक्षरों, विषयवस्तुओं और प्रतीकों को कवर करता है।
Unicode स्वतंत्र प्लेटफॉर्म और भाषा से अलग टेक्स्ट का संसाधन, संग्रहीत और प्रसार को समर्थित करता है。
HTML5 में डिफ़ॉल्ट अक्षर एनकोडिंग UTF-8 है।
यदि HTML5 वेब पृष्ठ द्वारा इस्तेमाल की जा रही अक्षर समूह UTF-8 से अलग है, तो इसे <meta> टैग में निर्दिष्ट करना चाहिए, उदाहरण के लिए:
उदाहरण
<meta charset="ISO-8859-1">
Unicode और UTF-8 के बीच का अंतर
Unicode एक अक्षर समूह है। UTF-8 एक एनकोडिंग है।
Unicode एक अद्वितीय दशांश संख्या (कोड प्वाइंट) वाले अक्षर सूची है। A = 65, B = 66, C = 67, ...।
यह दशांश संख्या सूची इस तरह की शब्द "hello": 104 101 108 108 111 को प्रस्तुत करती है
एनकोडिंग ये संख्याओं को द्विपदांक संख्याओं में बदलने के रूप में एक कंप्यूटर में संग्रहीत करने के तरीके है:
UTF-8 एनकोडिंग इस तरह (द्विपदांक) "hello" को संग्रहीत करेगी: 01101000 01100101 01101100 01101100 01101111
एनकोडिंगसंख्या को द्विपदांक में बदलें。अक्षर समूहअक्षर को संख्या में बदलें。
HTML5 UTF-8 अक्षर कोड
नीचे दिया गया सूची HTML5 द्वारा समर्थित कुछ UTF-8 अक्षर कोड है:
अक्षर कोड | दशांश | अक्षरांक |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
लातीन एक्सटेंडेड-ए | 256-383 | 0100-017F |
लातीन एक्सटेंडेड-बी | 384-591 | 0180-024F |
स्पेसिंग मॉडिफ़ायर | 688-767 | 02B0-02FF |
डायअक्रिटिकल मार्क | 768-879 | 0300-036F |
ग्रीक और कॉप्टिक | 880-1023 | 0370-03FF |
साइरिलिक बेसिक | 1024-1279 | 0400-04FF |
साइरिलिक सप्लीमेंट | 1280-1327 | 0500-052F |
सामान्य पुनःविन्यास | 8192-8303 | 2000-206F |
मुद्रा संकेत | 8352-8399 | 20A0-20CF |
लिटरलाइक संकेत | 8448-8527 | 2100-214F |
बाण्डल | 8592-8703 | 2190-21FF |
गणितीय ऑपरेटर | 8704-8959 | 2200-22FF |
बॉक्स ड्रॉइंग्स | 9472-9599 | 2500-257F |
ब्लॉक एलीमेंट | 9600-9631 | 2580-259F |
ज्यामितीय रूपाकार | 9632-9727 | 25A0-25FF |
विविध संकेत | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- पिछला पृष्ठ HTML संकेत
- अगला पृष्ठ लातीनी आधार