HTML Unicode (UTF-8) পরিচিতি হান্ডবুক
- পূর্ববর্তী পৃষ্ঠা HTML সমস্ত চিহ্ন
- পরবর্তী পৃষ্ঠা ল্যাটিন ভাষা মূল
Unicode ইউনিয়ন
Unicode ইউনিয়ন উন্নয়নকারী Unicode প্রমাণপত্রকে তৈরি করেছে। তাদের লক্ষ্য হলো বর্তমান চরিত্র প্রকল্পকে Unicode পরিবর্তন ফরম্যাট (UTF) দ্বারা প্রতিস্থাপন করা
Unicode প্রমাণপত্র সফলভাবে অর্জিত হয়েছে এবং HTML, XML, Java, JavaScript, ইমেল, ASP, PHP আদির মাধ্যমে বাস্তবায়িত হয়েছে। অনেক অপারেটিং সিস্টেম এবং সমস্ত আধুনিক ব্রাউজারগুলিতে, Unicode প্রমাণপত্রকেও সমর্থন করা হয়
Unicode ইউনিয়ন এবং প্রধান প্রমাণপত্র উন্নয়ন সংগঠন (যেমন ISO, W3C এবং ECMA) সহযোগিতা করে
Unicode চরিত্র প্রকল্প
Unicode বিভিন্ন চরিত্র প্রকল্পের মাধ্যমে বাস্তবায়িত হতে পারে। সবচেয়ে ব্যবহৃত এনকোডিং হলো UTF-8 এবং UTF-16:
চারিদায়ক সংকলন | ব্যাখ্যা |
---|---|
UTF-8 |
UTF8-এর চরিত্র দৈর্ঘ্য 1 থেকে 4 বাইট হতে পারে UTF-8 Unicode প্রমাণপত্রের কোনও চরিত্রকেও প্রকাশ করতে পারে UTF-8 একটি অক্ষীণ ASCII। UTF-8 ইমেল এবং ওয়েবসাইটের প্রথম পছন্দ এনকোডিং |
UTF-16 |
16 বিট ইউনিকোড (Unicode) ট্রান্সফরমার্শন ফরম্যাট (UTF-16) ইউনিকোড (Unicode) এর একটি সমস্ত বৈশিষ্ট্যসম্পন্ন চারিদায়ক এনকোডিং UTF-16 HTML5-র মূল অপারেটিং সিস্টেম, পরিবেশ এবং .NET-এর জন্য ব্যবহৃত হয় |
মন্তব্য:ইউনিকোড (Unicode) এর প্রথম 128 টি চারিদায়ক (এসিআই-র সঙ্গে একই) একক আটবাইট এনকোডিং ব্যবহার করে, এই আটবাইট এসিআই-র সমস্ত দ্বিবিন্যাস (বাইনারী) মানকের সঙ্গে একই, যার ফলে সম্পূর্ণ এসিআই টেক্সটও UTF-8 এনকোডিং হিসাবে কাজ করে
তুলনা:HTML 4 UTF-8-কে সমর্থন করে। HTML 5 UTF-8 এবং UTF-16-কে সমর্থন করে!
HTML5 প্রমাণপত্র: Unicode UTF-8
ISO-8859-র চারিদায়ক সংকলনের মাত্রা সীমিত এবং বহুভাষিক পরিবেশে অসংকল্পিত, তাই Unicode এসোসিয়েশন ইউনিকোড (Unicode) প্রমাণপত্র উন্নীত করেছে
ইউনিকোড (Unicode) প্রমাণপত্র (স্ট্যান্ডার্ড) প্রায় বিশ্বের সমস্ত চারিদায়ক, সূচক এবং চিহ্নকে আবৃত করে
ইউনিকোড (Unicode) প্ল্যাটফর্ম এবং ভাষা নির্ভরক্রমে টেক্সট প্রক্রিয়াকরণ, স্টোর এবং ট্রান্সমিশনকে সমর্থন করে
HTML5-র ডিফল্ট চারিদায়ক এনকোডিং UTF-8।
যদি এইম্স হাটম্যাপ (HTML5) এর চারিদায়ক সংকলন UTF-8-র বাইরে থাকে, তবে <meta> ট্যাগে সেই চারিদায়ক সংকলন নির্দিষ্ট করা উচিত, যেমন:
উদাহরণ
<meta charset="ISO-8859-1">
ইউনিকোড (Unicode) এবং UTF-8-র মধ্যে পার্থক্য
ইউনিকোড (Unicode) একটি চারিদায়ক সংকলন। UTF-8 এনকোডিং।
ইউনিকোড (Unicode) একটি অভিন্ন ডেসিমাল সংখ্যা (কোডপয়েন্ট) চারিদায়ক তালিকা। A = 65, B = 66, C = 67, ...。
এইভাবে ডেসিমাল সংখ্যায় তালিকা হল শব্দ "hello": 104 101 108 108 111
এনকোডিং হল এইভাবে এইসব সংখ্যায় দ্বিবিন্যাস (বাইনারী) রূপান্তর করে কম্পিউটারে স্টোর করা হয়:
UTF-8 এনকোডিং এইভাবে (দ্বিবিন্যাস) স্টোর করে "hello": 01101000 01100101 01101100 01101100 01101111
এনকোডিংসংখ্যায় দ্বিবিন্যাস (বাইনারী) রূপান্তর করুনচারিদায়ক সংকলনচারিদায়ককে সংখ্যায় রূপান্তর করুন
HTML5 UTF-8 অ্যাক্সোস (ASCII) কোড
এখানে এইম্স হাটম্যাপ (HTML5) এর কিছু UTF-8 অ্যাক্সোস (ASCII) কোডের তালিকা দেওয়া হয়েছে:
অ্যাক্সোস (ASCII) কোড | ডেসিমাল | হেক্সাডেসিমাল |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
ল্যাটিন এক্সটেন্ডেড-এ | 256-383 | 0100-017F |
ল্যাটিন এক্সটেন্ডেড-বি | 384-591 | 0180-024F |
স্পেসিং মডিফায়ার | 688-767 | 02B0-02FF |
ডায়াক্রিটিক মার্ক | 768-879 | 0300-036F |
গ্রীক এবং কপ্টিক | 880-1023 | 0370-03FF |
সিরিলিক বেসিক | 1024-1279 | 0400-04FF |
সিরিলিক সাপলিমেন্ট | 1280-1327 | 0500-052F |
জেনারেল পারেন্টেশন | 8192-8303 | 2000-206F |
মুদ্রা সিম্বল | 8352-8399 | 20A0-20CF |
লিটারাল সিম্বল | 8448-8527 | 2100-214F |
আরোহ চিহ্ন | 8592-8703 | 2190-21FF |
গণিতীয় অপারেটর | 8704-8959 | 2200-22FF |
বক্স ড্রোইন্গ | 9472-9599 | 2500-257F |
ব্লক ইলেকমেন্ট | 9600-9631 | 2580-259F |
জিওমেট্রিক আকৃতি | 9632-9727 | 25A0-25FF |
বিভিন্ন চিহ্ন | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
- পূর্ববর্তী পৃষ্ঠা HTML সমস্ত চিহ্ন
- পরবর্তী পৃষ্ঠা ল্যাটিন ভাষা মূল