HTML Unicode (UTF-8) 참조 매뉴얼

Unicode 연맹

Unicode 연맹은 Unicode 표준을 개발했습니다. 그들의 목표는 기존 문자 집합을 Unicode 표준의 Unicode 변환 형식(UTF)으로 대체하는 것입니다.

Unicode 표준은 성공적으로 도입되었으며, HTML, XML, Java, JavaScript, 이메일, ASP, PHP 등을 통해 구현되었습니다. 많은 운영 체제와 모든 현대 브라우저에서 Unicode 표준을 지원합니다.

Unicode 연맹은 ISO, W3C, ECMA와 같은 주요 표준 개발 조직과 협력하여 작업합니다.

Unicode 문자 집합

Unicode는 다양한 문자 집합을 통해 구현될 수 있습니다. 가장 일반적인编码은 UTF-8과 UTF-16입니다:

문자 집합 설명
UTF-8

UTF8의 문자 길이는 1개에서 4개의 바이트로 구성될 수 있습니다.

UTF-8은Unicode 표준의 모든 문자를 표현할 수 있습니다.

UTF-8은ASCII와 호환됩니다. UTF-8은이메일과 웹페이지의 기본编码입니다.

UTF-16

16비트 Unicode 변환 형식은 Unicode의 변환 가능 길이 문자 인코딩으로, 전체 Unicode 표자를 인코딩할 수 있습니다.

UTF-16은 Microsoft Windows, Java 및 .NET와 같은 주요 운영 체제 및 환경에서 사용됩니다.

비고:Unicode의 최초 128개 문자(ASCII와 일치)는 단일 8비트 바이트로 인코딩되며, 이 8비트 바이트는 ASCII와 동일한 이진 값을 가지므로 효과적인 ASCII 텍스트도有效的 UTF-8 인코딩 Unicode로 사용됩니다.

힌트:HTML 4은 UTF-8을 지원합니다. HTML 5은 UTF-8과 UTF-16을 모두 지원합니다!

HTML5 표준: Unicode UTF-8

ISO-8859의 문자 집합 크기가 제한적이고 다국어 환경과 호환되지 않기 때문에 Unicode 연맹은 Unicode 표준을 개발했습니다.

Unicode 표준(거의)은 전 세계의 모든 문자, 표점 및 기호를 포함하고 있습니다.

Unicode은 플랫폼과 언어에 독립된 텍스트 처리, 저장 및 전송을 지원합니다.

HTML5의 기본 문자 인코딩은 UTF-8입니다.

HTML5 웹 페이지가 사용하는 문자 집합이 UTF-8이 아니면 <meta> 태그에서 해당 문자 집합을 지정해야 합니다. 예를 들어:

예제

<meta charset="ISO-8859-1">

Unicode과 UTF-8之间的区别

Unicode은 문자 집합입니다. UTF-8은 인코딩입니다.

Unicode은 독립된 10진수 숫자(코드 포인트)를 가진 문자 목록입니다. A = 65, B = 66, C = 67, ...。

이 10진수 숫자 목록은 문자열 "hello"를 나타냅니다: 104 101 108 108 111

인코딩은 이러한 숫자를 컴퓨터에서 저장하는 방식으로 이진수 숫자로 변환합니다:

UTF-8 인코딩은 이렇게 (이진수) "hello"를 저장합니다: 01101000 01100101 01101100 01101100 01101111

编码숫자를 이진수로 변환합니다.문자 집합문자를 숫자로 변환합니다.

HTML5 UTF-8 문자 코드

아래 표는 HTML5가 지원하는 몇 가지 UTF-8 문자 코드 목록입니다:

문자 코드 10진수 16진수
C0 제어 및 기본 라틴 0-127 0000-007F
C1 제어 및 라틴-1 보완 128-255 0080-00FF
Latin Extended-A 256-383 0100-017F
Latin Extended-B 384-591 0180-024F
Spacing Modifiers 688-767 02B0-02FF
Diacritical Marks 768-879 0300-036F
Greek and Coptic 880-1023 0370-03FF
Cyrillic Basic 1024-1279 0400-04FF
Cyrillic Supplement 1280-1327 0500-052F
General Punctuation 8192-8303 2000-206F
Currency Symbols 8352-8399 20A0-20CF
Letterlike Symbols 8448-8527 2100-214F
Arrows 8592-8703 2190-21FF
Mathematical Operators 8704-8959 2200-22FF
Box Drawings 9472-9599 2500-257F
Block Elements 9600-9631 2580-259F
Geometric Shapes 9632-9727 25A0-25FF
Miscellaneous Symbols 9728-9983 2600-26FF
Dingbats 9984-10175 2700-27BF