Unicode
모든 문자에 고유 번호를 제공 하는 표준 입니다. 이 고유 번호는 code point
세계에 존재하는 모든 문자에 대해 s (단순한 코드 임)라고합니다 (일부는 여전히 추가되어야 함).
다른 목적으로 이것을 code points
바이트 단위 로 표현해야 할 수도 있고 (대부분의 프로그래밍 언어가 그렇게 함) 여기에 Character Encoding
시작됩니다.
UTF-8
, UTF-16
, UTF-32
등 모두 Character Encodings
, 유니 코드의 코드 포인트는 다른 방법으로,이 인코딩에 표시됩니다.
UTF-8
인코딩은 가변 너비 길이를 가지며 인코딩 된 문자는 1-4 바이트를 포함 할 수 있습니다.
UTF-16
가변 길이를 가지며 인코딩 된 문자는 1 또는 2 바이트 (8 또는 16 비트)를 사용할 수 있습니다. 이것은 BMP (Basic Multilingual Plane)라고하는 모든 유니 코드 문자의 일부만을 나타내며 거의 모든 경우에 충분합니다. Java는 UTF-16
문자열과 문자에 인코딩을 사용 합니다.
UTF-32
길이는 고정되어 있으며 각 문자는 정확히 4 바이트 (32 비트)를 사용합니다.