یوٹی ایف-8 سی 0 کنٹرولر اور بنیادی لاطینی حروف
- پچھل پار ایچ تی ایم ایل یونیکوڈ (یوٹی ایف-8) رفرنسی میک ان ڈیولپمنٹ مینول
- پائیدھ پار لاطینی بنیادیات
ਯੂਨੀਕੋਡ ਐਸੋਸੀਏਸ਼ਨ
ਯੂਨੀਕੋਡ ਐਸੋਸੀਏਸ਼ਨ ਨੇ Unicode ਸਟੈਂਡਰਡ ਵਿਕਸਿਤ ਕੀਤੀ ਹੈ। ਉਨ੍ਹਾਂ ਦਾ ਟੀਚਾ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਦੇ ਸਟੈਂਡਰਡ ਯੂਨੀਕੋਡ ਟਰਾਂਸਫਾਰਮਰ ਫਾਰਮੈਟ (UTF) ਨਾਲ ਮੌਜੂਦਾ ਅੱਖਰ ਸੈੱਟਾਂ ਨੂੰ ਬਦਲਣਾ ਹੈ。
ਯੂਨੀਕੋਡ ਸਟੈਂਡਰਡ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਹੈ ਅਤੇ HTML, XML, Java, JavaScript, ਈ-ਮੇਲ, ASP, PHP ਆਦਿ ਰਾਹੀਂ ਲਾਗੂ ਕੀਤੀ ਗਈ ਹੈ। ਕਈ ਆਪਰੇਟਿੰਗ ਸਿਸਟਮਾਂ ਅਤੇ ਸਾਰੇ ਆਧੁਨਿਕ ਬਰਾਉਜ਼ਰਾਂ ਵਿੱਚ Unicode ਸਟੈਂਡਰਡ ਦੀ ਸਮਰੱਥਾ ਹੈ。
ਯੂਨੀਕੋਡ ਐਸੋਸੀਏਸ਼ਨ ਪ੍ਰਮੁੱਖ ਸਟੈਂਡਰਡ ਵਿਕਾਸ ਸੰਗਠਨਾਂ (ਜਿਵੇਂ ਕਿ ISO, W3C ਅਤੇ ECMA) ਨਾਲ ਸਹਿਯੋਗ ਕਰਦੀ ਹੈ。
ਯੂਨੀਕੋਡ ਅੱਖਰ ਸੈੱਟ
ਯੂਨੀਕੋਡ ਵੱਖ-ਵੱਖ ਅੱਖਰ ਸੈੱਟਾਂ ਰਾਹੀਂ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਸਭ ਤੋਂ ਮਸ਼ਹੂਰ ਕੋਡਿੰਗ ਯੂਨੀਕੋਡ-8 ਅਤੇ UTF-16 ਹਨ:
ਅੱਖਰ ਸੈੱਟ | ਵਿਸ਼ੇਸ਼ਤਾ |
---|---|
UTF-8 |
UTF8 ਵਿੱਚ ਅੱਖਰ ਦੀ ਲੰਬਾਈ 1 ਤੋਂ 4 ਬਾਈਟ ਤੱਕ ਹੋ ਸਕਦੀ ਹੈ。 UTF-8 ਯੂਨੀਕੋਡ ਸਟੈਂਡਰਡ ਵਿੱਚ ਕਿਸੇ ਵੀ ਅੱਖਰ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰ ਸਕਦਾ ਹੈ。 UTF-8 ਪਿਛਲੇ ਆਸਕੀ ਨਾਲ ਪਾਰਸਪਰਿਕ ਹੈ। UTF-8 ਈ-ਮੇਲ ਅਤੇ ਵੈੱਬਸਾਈਟਾਂ ਦਾ ਪਸੰਦੀਦਾ ਕੋਡਿੰਗ ਹੈ |
UTF-16 |
16 ਬਿਟ ਯੂਨੀਕੋਡ ਟਰਾਂਸਫਾਰਮਰ ਫਾਰਮੈਟ ਯੂਨੀਕੋਡ ਦੇ ਵੱਡੇ ਅੱਖਰ ਸੈੱਟ ਦਾ ਬਦਲਦੀ ਕੰਟਰੋਲ ਲੰਬਾਈ ਚਾਰਜ ਕੋਡਿੰਗ ਹੈ ਜੋ ਸਾਰੇ ਯੂਨੀਕੋਡ ਰਿਪੋਜ਼ੀਟੋਰੀ ਨੂੰ ਕੋਡ ਕਰ ਸਕਦਾ ਹੈ。 UTF-16 ਮੁੱਖ ਓਪੇਰੇਟਿੰਗ ਸਿਸਟਮਾਂ ਅਤੇ ਮਾਹੌਲਾਂ ਵਿੱਚ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ ਜਿਵੇਂ ਕਿ ਮਾਈਕਰੋਸਾਫਟ ਵਿੰਡੋਜ਼, ਜਾਵਾ ਅਤੇ .NET。 |
ਟਿੱਪਣੀ:ਯੂਨੀਕੋਡ ਦੇ ਪਹਿਲੇ 128 ਅੱਖਰ (ASCII ਨਾਲ ਇੱਕ-ਇੱਕ ਮੈਚ) ਇੱਕ ਸਿੱਧੇ ਆਟੋਬਾਇਨਰੀ ਬਾਈਟ ਕੋਡਿੰਗ ਵਿੱਚ ਹਨ، ਇਹ ਆਟੋਬਾਇਨਰੀ ਬਾਈਟਾਂ ਐੱਸਸੀਆਈ ਨਾਲ ਇੱਕ ਸਮਾਨ ਬਾਇਨਰੀ ਕੋਡ ਵਾਲੇ ਹਨ ਜਿਸ ਨਾਲ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਐੱਸਸੀਆਈ ਟੈਕਸਟ ਵੀ ਯੂਟੀਐੱਫ-8 ਕੋਡਿੰਗ ਵਾਲਾ ਯੂਨੀਕੋਡ ਹੁੰਦਾ ਹੈ。
ਸੁਝਾਅ:ਐੱਚਟੀਐੱਮਐੱਲ 4 UTF-8 ਸਮਰਥਿਤ ਕਰਦਾ ਸੀ। ਐੱਚਟੀਐੱਮਐੱਲ 5 UTF-8 ਅਤੇ UTF-16 ਸਮਰਥਿਤ ਕਰਦਾ ਹੈ!
ਐੱਚਟੀਐੱਮਐੱਲ5 ਸਟੈਂਡਰਡ: Unicode UTF-8
ਇਸਲੋ-8859 ਵਿੱਚ ਅੱਖਰ ਸੈੱਟ ਦਾ ਆਕਾਰ ਸੀਮਤ ਹੈ ਅਤੇ ਬਹੁਭਾਾ ਵਾਲੇ ਮਾਹੌਲ ਨਾਲ ਸਮਝੌਤਾ ਨਹੀਂ ਹੈ ਇਸ ਲਈ ਯੂਨੀਕੋਡ ਐਸੋਸੀਏਸ਼ਨ ਨੇ ਯੂਨੀਕੋਡ ਸਟੈਂਡਰਡ ਵਿਕਸਿਤ ਕੀਤਾ ਹੈ。
ਯੂਨੀਕੋਡ ਸਟੈਂਡਰਡ (ਕਰੀਬ) ਦੁਨੀਆ ਦੇ ਸਾਰੇ ਅੱਖਰਾਂ، ਸੰਦੇਸ਼ ਅਤੇ ਚਿੰਨ੍ਹਾਂ ਨੂੰ ਕਵਰ ਕਰਦਾ ਹੈ。
ਯੂਨੀਕੋਡ ਪਲੇਟਫਾਰਮ ਅਤੇ ਭਾਸ਼ਾ ਨਾਲ ਅਲੱਗ ਤੋਂ ਟੈਕਸਟ ਦੇ ਪ੍ਰੋਸੈਸਿੰਗ, ਸਟੋਰ ਅਤੇ ਟ੍ਰਾਂਸਮਿਸ਼ਨ ਨੂੰ ਸਮਰਥਿਤ ਕਰਦਾ ਹੈ。
ਐੱਚਟੀਐੱਲ5 ਵਿੱਚ ਮੂਲਤਬੀ ਅੱਖਰ ਕੋਡਿੰਗ UTF-8 ਹੈ。
ਜੇਕਰ ਐੱਚਟੀਐੱਮਐੱਲ5 ਵੈੱਬਸਾਈਟ ਵਿੱਚ ਵਰਤਿਆ ਗਿਆ ਅੱਖਰ ਸੈੱਟ UTF-8 ਨਹੀਂ ਹੈ ਤਾਂ <meta> ਟੈਗ ਵਿੱਚ ਉਸ ਅੱਖਰ ਸੈੱਟ ਨੂੰ ਨਿਰਦੇਸ਼ਿਤ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ,ਉਦਾਹਰਣ ਵਜੋਂ:
ਉਦਾਹਰਣ
<meta charset="ISO-8859-1">
ਯੂਨੀਕੋਡ ਅਤੇ UTF-8 ਦਰਮਿਆਨ ਫਰਕ
ਯੂਨੀਕੋਡ ਅੱਖਰ ਸੈੱਟ ਹੈ। UTF-8 ਕੋਡਿੰਗ ਹੈ।
ਯੂਨੀਕੋਡ ਯੂਨਿਕ ਦਸਮਾਂਗੀ ਨੰਬਰ (ਕੋਡ ਪੁਆਇੰਟ) ਵਾਲੇ ਅੱਖਰ ਦੀ ਸੂਚੀ ਹੈ। A = 65،B = 66،C = 67،...。
ਇਹ ਦਸਮਾਂਗੀ ਨੰਬਰ ਸ਼ਬਦ "hello" ਦਿਸਦੇ ਹਨ: 104 101 108 108 111
ਕੋਡਿੰਗ ਇਹ ਸੰਖਿਆਵਾਂ ਬਾਇਨਰੀ ਨੰਬਰਾਂ ਵਿੱਚ ਬਦਲ ਕੇ ਕੰਪਿਊਟਰ ਵਿੱਚ ਸਟੋਰ ਕਰਨ ਦਾ ਤਰੀਕਾ ਹੈ:
ਯੂਟੀਐੱਫ-8 ਕੋਡਿੰਗ ਇਸ ਤਰ੍ਹਾਂ (ਬਾਇਨਰੀ) "hello" ਨੂੰ ਸਟੋਰ ਕਰੇਗਾ: 01101000 01100101 01101100 01101100 01101111
ਕੋਡਿੰਗਸੰਖਿਆ ਨੂੰ ਬਾਇਨਰੀ ਵਿੱਚ ਬਦਲੋ。ਅੱਖਰ ਸੈੱਟਅੱਖਰ ਨੂੰ ਸੰਖਿਆ ਵਿੱਚ ਬਦਲੋ。
ਐੱਚਟੀਐੱਮਐੱਲ5 ਯੂਟੀਐੱਫ-8 ਅੱਖਰ ਕੋਡ
ਹੇਠ ਦੇ ਸ਼ੈਡੂਲ ਵਿੱਚ ਐੱਚਟੀਐੱਮਐੱਲ5 ਦੁਆਰਾ ਸਮਰਥਿਤ ਕੁਝ ਯੂਟੀਐੱਫ-8 ਅੱਖਰ ਕੋਡਾਂ ਦੀ ਸੂਚੀ ਹੈ:
ਅੱਖਰ ਕੋਡ | ਦਸਮਾਂਗੀ | ਦਸਹਰਾ |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- پچھل پار ایچ تی ایم ایل یونیکوڈ (یوٹی ایف-8) رفرنسی میک ان ڈیولپمنٹ مینول
- پائیدھ پار لاطینی بنیادیات