유니 코드의 한자 전체 범위는 무엇입니까?


95

U + 4E00..U + 9FFF는 전체 세트의 일부이지만 전부는 아닙니다.


3
블록 범위가 수시로 업데이트되므로 여기에 wikipedia 기사를 링크 할 것입니다. 따라서 동적으로 변경되는 ratger tgan을 연결하여 정적 답변을 제공하는 것이 좋습니다 ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

답변:


104

CJK 유니 코드 FAQ ( "중국어, 일본어 및 한국어"문자 포함)를 통해 전체 목록을 찾을 수 있습니다.

" 동아시아 문자 "문서는 다음과 같이 언급합니다.

한 표어를 포함하는 블록

한 표의 문자는 표 12-2에 표시된대로 유니 코드 표준의 5 개 주요 블록에 있습니다.

표 12-2. 한 표어를 포함하는 블록

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

참고 : 블록 범위는 시간이 지남에 따라 발전 할 수 있습니다. 최신 정보는 CJK 통합 표의 문자에 있습니다.

Wikipedia 참조 :


U + AC00 – U + D7AF (한글 음절)를 포함 할 수도 있습니다.
Flimm

12
@Flimm : 한글은 중국 표준의 일부가 아닙니다. 한글은 한국어입니다. 한국어는 않습니다 하지만 부족하게 만 한글로 복사 할 수 없습니다 (마지막 이름, 기념물, 장소 ... 같은) 일부 전통적인 것들에 대한, 사용을 한자 ( "중국어 스크립트"). OP는 중국어에 대해 구체적으로 물었 기 때문에 응답자에 한글을 포함 할 필요가 없었습니다. :-)
omninonsense omninonsense

1
목록에 구두점 ( "。")이 포함되지 않은 것 같습니다.
Michał Woliński

1
@ MichałWoliński CJK 기호 및 구두점 범위 3000-303F입니다
마리아노

CJK Unified Ideographs Extension A가 3400에서 4dff가 아니라 3400에서 4dbf라는 것을 알게되었습니다.
Lerner Zhang

48

유니 코드에는 현재 74605 CJK 문자가 있습니다. CJK 문자에는 중국어에서 사용되는 문자뿐만 아니라 일본어 한자, 한자, 베트남어 Chu Nom도 포함 됩니다. 일부 CJK 문자는 중국어 문자가 아닙니다 .

1) CJK Unified Ideographs 블록 의 20941 자 .

코드 포인트 U + 4E00 ~ U + 9FCC.

  1. U + 4E00-U + 62FF
  2. U + 6300-U + 77FF
  3. U + 7800-U + 8CFF
  4. U + 8D00-U + 9FCC

2) CJKUI Ext A 블록 의 6582 자 .

코드 포인트 U + 3400 ~ U + 4DB5 . 유니 코드 3.0 (1999).

3) CJKUI Ext B 블록 의 42711 자 .

코드 포인트 U + 20000 ~ U + 2A6D6. 유니 코드 3.1 (2001).

  1. U + 20000-U + 215FF
  2. U + 21600-U + 230FF
  3. U + 23100-U + 245FF
  4. U + 24600-U + 260FF
  5. U + 26100-U + 275FF
  6. U + 27600-U + 290FF
  7. U + 29100-U + 2A6DF

3) CJKUI Ext C 블록 의 4149 자 .

코드 포인트 U + 2A700 ~ U + 2B734 . 유니 코드 5.2 (2009).

4) CJKUI Ext D 블록 에서 222 자 .

코드 포인트 U + 2B740 ~ U + 2B81D . 유니 코드 6.0 (2010).

5) CJKUI Ext E 블록.

곧 출시

위의 내용이 스파게티가 아닌 경우 알려진 문제를 살펴보세요 . 재미 =)


1
안녕하세요, 한자가 아닌 CJK 표의 문자 (기본 평면에서)의 예를 들어 주실 수 있습니까? 나는 다른 언어에서 해당 문자 또한 한자 (예를 들어 한국어의 경우 한글 자모 블록을) 다른 블록에 표시되지 않습니다 (일본어, 한국어) ... 생각
아담 벌리

'국자', '국자', '초남'을보세요. U + 4E44, 乄은 일본어 전용 CJK 문자입니다.
Ṃųỻịgǻňạcểơửṩ '1911.22

21

중국어 문자 (확장자 제외) 의 정확한 범위 는 [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement는 Kangxi 라디칼의 대체 형식을 포함하는 유니 코드 블록입니다. 사전 색인 및 급진적 스트로크로 구성된 기타 CJK 표의 문자 모음에서 헤더로 사용됩니다.

  1. [\u3190-\u319f]

Kanbun은 읽기 순서를 나타 내기 위해 중국어 고전 텍스트의 일본어 사본에 사용되는 주석 문자가 포함 된 유니 코드 블록입니다.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A는 희귀 한 표의 문자를 포함하는 유니 코드 블록입니다.

  1. [\u4E00-\u9FCC]

CJK 통합 표의 문자는 현대 중국어와 일본어에서 사용되는 가장 일반적인 CJK 표의 문자를 포함하는 유니 코드 블록입니다.

  1. [\uF900-\uFAAD]

CJK Compatibility Ideographs는 유니 코드와 해당 인코딩 간의 왕복 호환성을 유지하기 위해 CJK Unified Ideographs 할당 외에도 다른 설정된 문자 인코딩의 여러 위치에서 인코딩 된 Han ​​문자를 포함하도록 생성 된 유니 코드 블록입니다.

자세한 내용은 여기 를 참조 하고 확장은 다른 답변에서 제공됩니다.


이 답변을 반대 한 사람이 이유를 알려주시겠습니까?
Lerner Zhang

2
나는 반대표를 던지지 않았지만 내선 B, C, D, E는 어떻습니까?
Suragch

@Suragch 이러한 확장은 다른 답변에서 올바르게 제공되었으므로 다시 작성할 필요가 없습니다. 나는 그 사이의 범위를 명확하게 분리했습니다.
Lerner Zhang

1. CJK Radicals Supplement의 범위는 2E80—2EFF입니다. 2.Kangxi Radicals는 중국어 문자가 아니고, 중국어 문자의 그래픽 구성 요소이며, .eg ⼻ (U + 2F3B) 및 彳 (U + 5F73)와 같이 특별히 라디칼을 표현하는 데 사용됩니다. ), ⻜ (U + 2EDC) 및 飞 (U + 98DE) 3. 칸 분이 중국어 문자라고 생각한다면 CJK 호환성 표의 문자는 어떻습니까? CJK 문자와 월을 동봉하지 않는 이유는 무엇입니까?
Voyager

@rambler 조언 해 주셔서 감사합니다. Chinses 캐릭터를 처리 할 때 Kangxi Radicals와 Kanbun을 고려해야한다고 생각합니다. CJK 호환성 표의 문자는 좋지만 동봉 된 CJK 문자와 달은 너무 드물기 때문에 고려해서는 안된다고 생각합니다.
Lerner Zhang

10

유니 코드 버전 11.0.0

유니 코드에서 중국어, 일본어 및 한국어 (CJK) 스크립트는 집합 적으로 CJK 문자로 알려진 공통 배경을 공유합니다.

이러한 범위에는 종종 할당되지 않거나 예약 된 코드 포인트 (예 : U + 2E9A , U + 2EF4-2EFF)가 포함됩니다.

한자

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • 에서 한중일 통합 한자의 블록, 나는 많은 답변 위 9FCC 바인딩 사용에 대한 고지 있지만, U + 9FCD은 (鿍) 실제로 중국 문자입니다. 그리고이 블록의 모든 문자는 한자 (일본어 또는 한국어 등에서도 사용됨)입니다.
  • CJK Unified Ideograohs Ext (Ext F 제외, Ext F의 17 %만이 한자 임)의 대부분의 문자는 중국에서 거의 사용되지 않는 전통적인 한자입니다.
  • 〇은 0의 한자 형태이며 오늘날에도 여전히 사용되고 있습니다.

따라서 범위는

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

CJK 문자이지만 중국어에서는 사용되지 않음

그들은 호환성을 위해서만 사용되는 Common Han입니다.

중국의 책, 기사, 저술 등에 등장하는 것은 거의 불가능합니다.

여기에있는 모든 문자에는 글리프와 동일한 중국어 문자가 하나 있습니다. 金 (U + F90A), 金 (U + 91D1)과 같이 Glyph에서 동일합니다.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

CJK 관련 기호

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • 한글 호환성 자모 와 같은 일부 블록 은 중국어와 관련이 없기 때문에 버려집니다.
  • Kangxi Radicals 는 중국어 문자가 아니라 중국어 문자의 그래픽 구성 요소이며, ⼻ (U + 2F3B) 및 彳 (U + 5F73), ⻜ (U + 2EDC) 및 飞 (U +)와 같이 특별히 라디칼을 표현하는 데 사용됩니다. 98DE)

다른 일반적인 구두점은 중국어로 표시됩니다.

이것은 넓은 범위이며, 일부 구두점은 결코 사용되지 않을 수 ……”“있으며, 중국어에서 너무 많이 사용되는 것과 같은 일부 구두점 입니다.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Yijing Hexagram Symbols 또는 Kanbun 과 같은 중국어 관련 기호도 많이 있지만 어쨌든 주제에서 벗어납니다. 중국어 문자가 무엇인지 더 잘 설명하기 위해 한중일 문자가 아닌 문자를 작성합니다. 그리고 위의 범위는 이미 수학 및 기타 전문 표기법을 제외하고 중국어 작문에 나타나는 거의 모든 문자를 포함합니다.

보충

CJK 기호 및 구두점

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

반각 및 전각 양식

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

보내다

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (중국어의 경우 오른쪽 사이드 바에 있음)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84 % 8F % E6 % 96 % 87 % E5 % AD % 97 (하단 테이블 참고)
  3. http://www.unicode.org

2

다른 답변이 제공 한 유니 코드 코드 블록은 대부분의 중국어 유니 코드 문자를 포함하지만 다른 코드 블록도 확인하십시오.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

여기에서 자세한 논의를 참조 하십시오 . 그리고이 사이트 는 유니 코드 검색에 편리합니다.


1

요약하면 다음과 같이 들립니다.

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.