HTML Unicode (UTF-8) 참조 매뉴얼
Unicode 연맹
Unicode 연맹은 Unicode 표준을 개발했습니다. 그들의 목표는 기존 문자셋을 Unicode 표준의 Unicode 변환 형식(UTF)으로 대체하는 것입니다.
Unicode 표준은 성공적으로 도입되었으며, HTML, XML, Java, JavaScript, 이메일, ASP, PHP 등을 통해 구현되었습니다. 많은 운영 체제와 모든 현대 브라우저에서 Unicode 표준을 지원합니다.
Unicode 연맹은 주요 표준 개발 기관(예: ISO, W3C, ECMA)과 협력하여 개발합니다.
Unicode 문자셋
Unicode는 다양한 문자셋을 통해 구현될 수 있습니다. 가장 일반적인编码은 UTF-8과 UTF-16입니다:
문자 집합 | 설명 |
---|---|
UTF-8 |
UTF8의 문자 길이는 1에서 4바이트 사이입니다. UTF-8은Unicode 표준의 모든 문자를 표현할 수 있습니다. UTF-8은ASCII와의호환성이있습니다. UTF-8은이메일과웹페이지의최선의编码입니다. |
UTF-16 |
16비트 Unicode 변환 형식은 Unicode의 변하지 않는 길이 문자 인코딩으로, 전체 Unicode 보고서를 인코딩할 수 있습니다. UTF-16은 Microsoft Windows, Java 및 .NET와 같은 주요 운영 체제 및 환경에서 사용됩니다. |
비고:Unicode의 첫 128개 문자(ASCII와 일일이 일치)는 단일 8비트 바이트 인코딩을 사용하며, 이 8비트 바이트는 ASCII와 동일한 이진 값을 가지므로 효과적인 ASCII 텍스트도 유効한 UTF-8 인코딩 Unicode가 됩니다.
안내:HTML 4은 UTF-8을 지원합니다. HTML 5는 UTF-8과 UTF-16을 모두 지원합니다!
HTML5 표준: Unicode UTF-8
ISO-8859의 문자 집합 크기가 제한적이고 다국어 환경에서 호환되지 않기 때문에 Unicode 연맹은 Unicode 표준을 개발했습니다.
Unicode 표준(대부분)은 전 세계의 모든 문자, 점표기 및 기호를 포함하고 있습니다.
Unicode은 플랫폼과 언어에 상관없이 텍스트 처리, 저장 및 전송을 지원합니다.
HTML5의 기본 문자 인코딩은 UTF-8입니다.
HTML5 웹 페이지에서 사용하는 문자 집합이 UTF-8과 다르면 <meta> 태그에서 해당 문자 집합을 지정해야 합니다. 예를 들어:
예제
<meta charset="ISO-8859-1">
Unicode과 UTF-8 간의 차이
Unicode은 문자 집합입니다. UTF-8은 인코딩입니다.
Unicode은 독립된 십진수 숫자(코드 포인트)를 가진 문자 목록입니다. A = 65, B = 66, C = 67, ...。
이 십진수 숫자 목록은 문자열 "hello"을 나타냅니다: 104 101 108 108 111
인코딩은 이러한 숫자를 이진수 숫자로 변환하여 컴퓨터에 저장하는 방식입니다:
UTF-8 인코딩은 이렇게 (이진수) 저장됩니다: "hello": 01101000 01100101 01101100 01101100 01101111
인코딩숫자를 이진수로 변환합니다.문자 집합문자를 숫자로 변환합니다.
HTML5 UTF-8 문자 코드
아래 표는 HTML5가 지원하는 몇 가지 UTF-8 문자 코드 목록입니다:
문자 코드 | 10진수 | 16진수 |
---|---|---|
C0 제어 및 기본 라틴 | 0-127 | 0000-007F |
C1 제어 및 라틴-1 보조 | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |