U + 4E00..U + 9FFF는 전체 세트의 일부이지만 전부는 아닙니다.
답변:
CJK 유니 코드 FAQ ( "중국어, 일본어 및 한국어"문자 포함)를 통해 전체 목록을 찾을 수 있습니다.
" 동아시아 문자 "문서는 다음과 같이 언급합니다.
한 표어를 포함하는 블록
한 표의 문자는 표 12-2에 표시된대로 유니 코드 표준의 5 개 주요 블록에 있습니다.
표 12-2. 한 표어를 포함하는 블록
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
참고 : 블록 범위는 시간이 지남에 따라 발전 할 수 있습니다. 최신 정보는 CJK 통합 표의 문자에 있습니다.
Wikipedia 참조 :
유니 코드에는 현재 74605 CJK 문자가 있습니다. CJK 문자에는 중국어에서 사용되는 문자뿐만 아니라 일본어 한자, 한자, 베트남어 Chu Nom도 포함 됩니다. 일부 CJK 문자는 중국어 문자가 아닙니다 .
코드 포인트 U + 4E00 ~ U + 9FCC.
코드 포인트 U + 3400 ~ U + 4DB5 . 유니 코드 3.0 (1999).
코드 포인트 U + 20000 ~ U + 2A6D6. 유니 코드 3.1 (2001).
코드 포인트 U + 2A700 ~ U + 2B734 . 유니 코드 5.2 (2009).
코드 포인트 U + 2B740 ~ U + 2B81D . 유니 코드 6.0 (2010).
위의 내용이 스파게티가 아닌 경우 알려진 문제를 살펴보세요 . 재미 =)
중국어 문자 (확장자 제외) 의 정확한 범위 는 [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.
CJK Radicals Supplement는 Kangxi 라디칼의 대체 형식을 포함하는 유니 코드 블록입니다. 사전 색인 및 급진적 스트로크로 구성된 기타 CJK 표의 문자 모음에서 헤더로 사용됩니다.
Kanbun은 읽기 순서를 나타 내기 위해 중국어 고전 텍스트의 일본어 사본에 사용되는 주석 문자가 포함 된 유니 코드 블록입니다.
CJK Unified Ideographs Extension-A는 희귀 한 표의 문자를 포함하는 유니 코드 블록입니다.
CJK 통합 표의 문자는 현대 중국어와 일본어에서 사용되는 가장 일반적인 CJK 표의 문자를 포함하는 유니 코드 블록입니다.
CJK Compatibility Ideographs는 유니 코드와 해당 인코딩 간의 왕복 호환성을 유지하기 위해 CJK Unified Ideographs 할당 외에도 다른 설정된 문자 인코딩의 여러 위치에서 인코딩 된 Han 문자를 포함하도록 생성 된 유니 코드 블록입니다.
자세한 내용은 여기 를 참조 하고 확장은 다른 답변에서 제공됩니다.
유니 코드 버전 11.0.0
유니 코드에서 중국어, 일본어 및 한국어 (CJK) 스크립트는 집합 적으로 CJK 문자로 알려진 공통 배경을 공유합니다.
이러한 범위에는 종종 할당되지 않거나 예약 된 코드 포인트 (예 : U + 2E9A , U + 2EF4-2EFF)가 포함됩니다.
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
따라서 범위는
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
그들은 호환성을 위해서만 사용되는 Common Han입니다.
중국의 책, 기사, 저술 등에 등장하는 것은 거의 불가능합니다.
여기에있는 모든 문자에는 글리프와 동일한 중국어 문자가 하나 있습니다. 金 (U + F90A), 金 (U + 91D1)과 같이 Glyph에서 동일합니다.
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
이것은 넓은 범위이며, 일부 구두점은 결코 사용되지 않을 수 ……”“
있으며, 중국어에서 너무 많이 사용되는 것과 같은 일부 구두점 입니다.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Yijing Hexagram Symbols 또는 Kanbun 과 같은 중국어 관련 기호도 많이 있지만 어쨌든 주제에서 벗어납니다. 중국어 문자가 무엇인지 더 잘 설명하기 위해 한중일 문자가 아닌 문자를 작성합니다. 그리고 위의 범위는 이미 수학 및 기타 전문 표기법을 제외하고 중국어 작문에 나타나는 거의 모든 문자를 포함합니다.
CJK 기호 및 구두점
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
반각 및 전각 양식
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
다른 답변이 제공 한 유니 코드 코드 블록은 대부분의 중국어 유니 코드 문자를 포함하지만 다른 코드 블록도 확인하십시오.
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
요약하면 다음과 같이 들립니다.
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]