제안 된 답변 중 어느 것도 Unicode Basic Multiligual Plane 외부의 문자를 인코딩하는 데 사용되는 대리 쌍에 대해 작동하지 않습니다 .
다음은 세 가지 기술을 사용하여 문자열의 "문자"를 반복하는 예제입니다 (Java 8 스트림 API 사용 포함). 이 예에는 SMP (Unicode Supplementary Multilingual Plane) 문자가 포함되어 있습니다. 이 예제와 결과를 올바르게 표시하려면 적절한 글꼴이 필요합니다.
// String containing characters of the Unicode
// Supplementary Multilingual Plane (SMP)
// In that particular case, hieroglyphs.
String str = "The quick brown 𓃥 jumps over the lazy 𓊃𓍿𓅓𓃡";
문자 반복
첫 번째 해결책은 모든 char
문자열에 대한 간단한 루프 입니다.
/* 1 */
System.out.println(
"\n\nUsing char iterator (do not work for surrogate pairs !)");
for (int pos = 0; pos < str.length(); ++pos) {
char c = str.charAt(pos);
System.out.printf("%s ", Character.toString(c));
// ^^^^^^^^^^^^^^^^^^^^^
// Convert to String as per OP request
}
코드 포인트 반복
두 번째 솔루션은 명시 적 루프도 사용하지만 codePointAt로 개별 코드 포인트에 액세스 하고 charCount 에 따라 루프 인덱스를 증가시킵니다 .
/* 2 */
System.out.println(
"\n\nUsing Java 1.5 codePointAt(works as expected)");
for (int pos = 0; pos < str.length();) {
int cp = str.codePointAt(pos);
char chars[] = Character.toChars(cp);
// ^^^^^^^^^^^^^^^^^^^^^
// Convert to a `char[]`
// as code points outside the Unicode BMP
// will map to more than one Java `char`
System.out.printf("%s ", new String(chars));
// ^^^^^^^^^^^^^^^^^
// Convert to String as per OP request
pos += Character.charCount(cp);
// ^^^^^^^^^^^^^^^^^^^^^^^
// Increment pos by 1 of more depending
// the number of Java `char` required to
// encode that particular codepoint.
}
Stream API를 사용하여 코드 포인트를 반복
세 번째 솔루션은 기본적으로 두 번째 솔루션과 동일하지만 Java 8 Stream API를 사용합니다 .
/* 3 */
System.out.println(
"\n\nUsing Java 8 stream (works as expected)");
str.codePoints().forEach(
cp -> {
char chars[] = Character.toChars(cp);
// ^^^^^^^^^^^^^^^^^^^^^
// Convert to a `char[]`
// as code points outside the Unicode BMP
// will map to more than one Java `char`
System.out.printf("%s ", new String(chars));
// ^^^^^^^^^^^^^^^^^
// Convert to String as per OP request
});
결과
해당 테스트 프로그램을 실행하면 다음을 얻습니다.
Using char iterator (do not work for surrogate pairs !)
T h e q u i c k b r o w n ? ? j u m p s o v e r t h e l a z y ? ? ? ? ? ? ? ?
Using Java 1.5 codePointAt(works as expected)
T h e q u i c k b r o w n 𓃥 j u m p s o v e r t h e l a z y 𓊃 𓍿 𓅓 𓃡
Using Java 8 stream (works as expected)
T h e q u i c k b r o w n 𓃥 j u m p s o v e r t h e l a z y 𓊃 𓍿 𓅓 𓃡
보시다시피 (상형 문자를 올바르게 표시 할 수있는 경우) 첫 번째 솔루션은 유니 코드 BMP 외부의 문자를 올바르게 처리하지 못합니다. 반면에 다른 두 솔루션은 서로 게이트 쌍을 잘 처리합니다.