Java 정규식에서 \ w 및 \ b에 해당하는 유니 코드?

126

많은 최신 정규식 구현에서는 \w문자 클래스 속기를 "모든 문자, 숫자 또는 연결 구두점"(일반적으로 밑줄)으로 해석합니다 . 그런 식으로, 같은 정규식 \w+일치하는 단어는 좋아 hello, élève, GOÄ_432또는 gefräßig.

불행히도 Java는 그렇지 않습니다. 자바에서 \w제한됩니다 [A-Za-z0-9_]. 이로 인해 위에서 언급 한 것과 같은 단어를 일치시키기가 어렵고 다른 문제가 있습니다.

또한 \b단어 구분자가 일치하지 않아야하는 위치에서 일치 하는 것으로 보입니다 .

.NET 유사, 유니 코드 인식 \w또는 \bJava에 해당하는 올바른 것은 무엇입니까 ? 유니 코드를 인식하기 위해 "재 작성"이 필요한 다른 단축키는 무엇입니까?

— 팀 피 에츠 커
소스

짧은 이야기 인 Tim은 모두 유니 코드와 일치하도록 작성해야 한다는 것 입니다. Java 1.7이 마지막으로 스크립트에 대한 지원을 추가하는 것보다 유니 코드 속성으로 더 많은 일을 할 것이라는 징후는 아직 보이지 않지만 그게 전부입니다. 유니 코드 속성의 전체 보완에 대한 더 나은 액세스 없이는 실제로 할 수없는 몇 가지 작업이 있습니다. 아직 내 uniprops 와 unichars 스크립트 (및 uninames )가 없다면 이 모든 것에 놀랍도록 눈을 뜨게 할 것입니다.

— tchrist

단어 클래스에 마크를 추가하는 것을 고려할 수 있습니다. 예를 들어 & auml; 유니 코드로 \ u0061 \ u0308 또는 \ u00E4로 표시 할 수 있습니다.

— Mostowski Collapse

Hey Tim, 내 업데이트를 확인하십시오. 그들은 모든 것이 작동하도록 플래그를 추가했습니다. 만세!

— tchrist 2011

240

소스 코드

아래에서 설명하는 재 작성 기능의 소스 코드 는 여기에서 확인할 수 있습니다. .

Java 7의 업데이트

PatternJDK7에 대한 Sun의 업데이트 된 클래스에는 UNICODE_CHARACTER_CLASS모든 것이 다시 올바르게 작동하도록 하는 놀라운 새 플래그가 있습니다. (?U)패턴 내부에 임베드 가능 하므로 String클래스의 래퍼 와 함께 사용할 수도 있습니다. 또한 다양한 다른 속성에 대한 정의를 수정했습니다. 지금은 유니 코드 모두에서 표준, 추적 RL1.2 및 RL1.2a을 에서 UTS # 18 : 유니 코드 정규 표현식 . 이것은 흥미롭고 극적인 개선이며, 개발 팀은이 중요한 노력에 대해 칭찬받을 것입니다.

자바의 정규식 유니 코드 문제

의미 - 자바 정규 표현식에 대한 문제는 펄 1.0 charclass 탈출이다 \w, \b, \s, \d과 보완이 -하지 자바에서 유니 코드 일까지 연장. 이들 중 단독으로 \b특정 확장 된 의미론을 즐기지 만, 이들은 \w, 유니 코드 식별자 또는 유니 코드 줄 바꿈 속성에 매핑되지 않습니다 .

또한 Java의 POSIX 속성은 다음과 같은 방법으로 액세스됩니다.

POSIX syntax    Java syntax

[[:Lower:]]     \p{Lower}
[[:Upper:]]     \p{Upper}
[[:ASCII:]]     \p{ASCII}
[[:Alpha:]]     \p{Alpha}
[[:Digit:]]     \p{Digit}
[[:Alnum:]]     \p{Alnum}
[[:Punct:]]     \p{Punct}
[[:Graph:]]     \p{Graph}
[[:Print:]]     \p{Print}
[[:Blank:]]     \p{Blank}
[[:Cntrl:]]     \p{Cntrl}
[[:XDigit:]]    \p{XDigit}
[[:Space:]]     \p{Space}

이 일을 좋아한다는 것을 의미하기 때문에, 진짜 엉망이다 Alpha, Lower그리고 Space할 수 없는 유니 코드에 자바지도에서 Alphabetic, Lowercase또는 Whitespace속성. 이것은 매우 성가신 일입니다. Java의 유니 코드 속성 지원은 엄격하게 천년 전입니다. 입니다. 즉, 지난 10 년 동안 나온 유니 코드 속성은 지원하지 않습니다.

공백에 대해 제대로 말할 수 없다는 것은 매우 성가신 일입니다. 다음 표를 고려하십시오. 각 코드 포인트에는 Java 용 J-results 열과 Perl 또는 기타 PCRE 기반 정규식 엔진 용 P-results 열이 있습니다.

             Regex    001A    0085    00A0    2029
                      J  P    J  P    J  P    J  P
                \s    1  1    0  1    0  1    0  1
               \pZ    0  0    0  0    1  1    1  1
            \p{Zs}    0  0    0  0    1  1    0  0
         \p{Space}    1  1    0  1    0  1    0  1
         \p{Blank}    0  0    0  0    0  1    0  0
    \p{Whitespace}    -  1    -  1    -  1    -  1
\p{javaWhitespace}    1  -    0  -    0  -    1  -
 \p{javaSpaceChar}    0  -    0  -    1  -    1  -

저거 봐?

거의 모든 Java 공백 결과는 Unicode에 따라 ̲w̲r̲o̲n̲g̲입니다. 그것은이다 정말 큰 문제. 자바는 단지 엉망이되어 기존 관행과 유니 코드에 따라 "잘못된"답변을 제공합니다. 게다가 Java는 실제 유니 코드 속성에 대한 액세스도 제공하지 않습니다! 사실, 자바는 지원하지 않는 모든 유니 코드 공백에 해당하는 속성을.

이러한 모든 문제에 대한 해결책 등

이 문제와 다른 많은 관련 문제를 처리하기 위해 어제이 14 개의 문자 클래스 이스케이프를 다시 작성하는 패턴 문자열을 다시 작성하는 Java 함수를 작성했습니다.

\w \W \s \S \v \V \h \H \d \D \b \B \X \R

예측 가능하고 일관된 방식으로 유니 코드와 일치하도록 실제로 작동하는 것으로 대체합니다. 단일 해킹 세션의 알파 프로토 타입 일 뿐이지 만 완전히 작동합니다.

짧은 이야기는 내 코드가 다음과 같이 14를 다시 작성한다는 것입니다.

\s => [\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]

\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]

\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]

\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]

\b => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))
\B => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))

\d => \p{Nd}
\D => \P{Nd}

\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])

\X => (?>\PM\pM*)

고려해야 할 몇 가지 사항 ...

이는 유니 코드 가 확장 된 자소 클러스터 가 아닌 레거시 자소 클러스터 로 지칭되는\X 것을 정의 하기 위해 사용 합니다. 후자는 좀 더 복잡하기 때문입니다. Perl 자체는 이제 더 멋진 버전을 사용하지만 이전 버전은 여전히 가장 일반적인 상황에서 완벽하게 작동합니다. 편집 : 하단의 부록 참조.
수행 할 작업은 \d의도 에 따라 다르지만 기본값은 Uniode 정의입니다. 나는 사람들이 항상 원하는 \p{Nd}것은 아니지만 때때로 [0-9]또는 둘 중 하나를 볼 수 있습니다 \pN.
두 경계 정의는, \b과 \B, 특히 사용하기 위해 작성되는 \w정의를.
그 \w정의는 지나치게 넓습니다. 왜냐하면 원으로 표시된 글자뿐만 아니라 괄호 안의 글자도 잡기 때문입니다. 유니 코드 Other_Alphabetic속성은 JDK7까지는 사용할 수 없으므로 이것이 최선입니다.

경계 탐색

경계 래리 벽이 먼저 만들어 낸 이후로 문제가되었습니다 \b및 \B방법을 이해하기 위해 1987 년에 펄 1.0 다시 그들에 대한 중요한 이야기에 대한 구문을 \b하고 \B두 작품은 그들에 대해이 보급 신화를 풀다하는 것입니다 :

그들은되어 오직보고하지 위해 \w, 단어 문자 결코 단어가 아닌 문자.
그들은 특별히 끈의 가장자리를 찾지 않습니다.

\b경계 수단 :

    IF does follow word
        THEN doesn't precede word
    ELSIF doesn't follow word
        THEN does precede word

그리고 그것들은 모두 다음과 같이 완벽하게 간단하게 정의됩니다.

단어 다음 IS를(?<=\w) 입니다.
선행 단어 입니다(?=\w) .
단어가 따르지 않는 것입니다 (?<!\w).
하지 않습니다 앞에 단어 입니다 (?!\w).

따라서 IF-THEN는and ED-함께 AB정규 표현식에에서,는 or이며 X|Y, 및 때문에 and우선 높은 것보다 or간단하다, AB|CD. 따라서 모든 \b것은 경계를 다음으로 안전하게 대체 할 수 있음을 의미합니다.

    (?:(?<=\w)(?!\w)|(?<!\w)(?=\w))

에 \w적절한 방법으로 정의.

(당신은 것을 이상한 생각 A과 C구성 요소는 정반대 완벽한 세계에서, 당신은 쓸 수 있어야합니다. AB|D하지만 내가 유니 코드 속성에서 상호 배제 모순 추격하는 동안 - 내가 생각을 내가 알아서 한을 ,하지만 만일을 대비하여 경계에 이중 조건을 남겨 두었습니다. 또한 나중에 추가 아이디어를 얻으면 더 확장 가능합니다.)

를 들어 \B비 경계, 논리는 다음과 같습니다

    IF does follow word
        THEN does precede word
    ELSIF doesn't follow word
        THEN doesn't precede word

의 모든 인스턴스 \B를 다음으로 대체 할 수 있습니다.

    (?:(?<=\w)(?=\w)|(?<!\w)(?!\w))

이것은 정말 방법입니다 \b 이며 \B행동합니다. 그들과 동등한 패턴은

\b구성을 사용하는 ((IF)THEN|ELSE)것은(?(?<=\w)(?!\w)|(?=\w))
\B 사용하여 ((IF)THEN|ELSE)것은(?(?=\w)(?<=\w)|(?<!\w))

하지만 버전은 AB|CD Java와 같은 정규식 언어에 조건부 패턴이없는 경우에는 특히 괜찮습니다. ☹

나는 이미 실행 당 110,385,408 개의 일치를 확인하는 테스트 스위트와 함께 세 가지 동등한 정의를 모두 사용하여 경계의 동작을 확인했으며 다음과 같이 12 개의 다른 데이터 구성에서 실행했습니다.

     0 ..     7F    the ASCII range
    80 ..     FF    the non-ASCII Latin1 range
   100 ..   FFFF    the non-Latin1 BMP (Basic Multilingual Plane) range
 10000 .. 10FFFF    the non-BMP portion of Unicode (the "astral" planes)

그러나 사람들은 종종 다른 종류의 경계를 원합니다. 그들은 공백과 문자열 가장자리를 인식하는 무언가를 원합니다.

좌측 에지 로서(?:(?<=^)|(?<=\s))
우단 로서(?=$|\s)

Java로 Java 수정

다른 답변에 게시 한 코드 는 이것과 다른 몇 가지 편의를 제공합니다. 여기에는 자연어 단어, 대시, 하이픈 및 아포스트로피에 대한 정의와 그 이상이 포함됩니다.

또한 바보 같은 UTF-16 서로 게이트가 아닌 논리적 코드 포인트에서 유니 코드 문자를 지정할 수 있습니다. 그것이 얼마나 중요한지 지나치게 강조하기는 어렵습니다!그리고 그것은 단지 문자열 확장을위한 것입니다.

Java 정규식의 charclass가 마침내 유니 코드에서 작동하고 올바르게 작동하도록 하는 정규식 charclass 대체의 경우 여기에서 전체 소스를 가져 옵니다 . 물론 원하는대로 할 수 있습니다. 당신이 그것을 고치면 나는 그것을 듣고 싶지만 당신은 그럴 필요가 없습니다. 꽤 짧습니다. 주요 정규식 재 작성 기능의 핵심은 간단합니다.

switch (code_point) {

    case 'b':  newstr.append(boundary);
               break; /* switch */
    case 'B':  newstr.append(not_boundary);
               break; /* switch */

    case 'd':  newstr.append(digits_charclass);
               break; /* switch */
    case 'D':  newstr.append(not_digits_charclass);
               break; /* switch */

    case 'h':  newstr.append(horizontal_whitespace_charclass);
               break; /* switch */
    case 'H':  newstr.append(not_horizontal_whitespace_charclass);
               break; /* switch */

    case 'v':  newstr.append(vertical_whitespace_charclass);
               break; /* switch */
    case 'V':  newstr.append(not_vertical_whitespace_charclass);
               break; /* switch */

    case 'R':  newstr.append(linebreak);
               break; /* switch */

    case 's':  newstr.append(whitespace_charclass);
               break; /* switch */
    case 'S':  newstr.append(not_whitespace_charclass);
               break; /* switch */

    case 'w':  newstr.append(identifier_charclass);
               break; /* switch */
    case 'W':  newstr.append(not_identifier_charclass);
               break; /* switch */

    case 'X':  newstr.append(legacy_grapheme_cluster);
               break; /* switch */

    default:   newstr.append('\\');
               newstr.append(Character.toChars(code_point));
               break; /* switch */

}
saw_backslash = false;

어쨌든, 그 코드는 단지 알파 릴리스 일뿐입니다. 주말에 제가 해킹 한 것입니다. 그렇게되지 않을 것입니다.

베타의 경우 다음을 수행합니다.

코드 중복을 함께 접어
이스케이프 해제 문자열 이스케이프 대 정규식 이스케이프 증가에 대한보다 명확한 인터페이스를 제공합니다.
\d확장에 약간의 유연성을 제공 하고\b
돌아 서서 Pattern.compile 또는 String.matches 또는 기타 등등을 호출하는 편리한 메서드를 제공합니다.

프로덕션 릴리스의 경우 javadoc 및 JUnit 테스트 스위트가 있어야합니다. 내 gigatester를 포함시킬 수 있지만 JUnit 테스트로 작성되지 않았습니다.

추가

좋은 소식과 나쁜 소식이 있습니다.

좋은 소식은 제가 이제 확장 된 자소 클러스터 에 매우 근접 하여 개선 된 .\X

나쁜 소식은 ☺ 그 패턴이 다음과 같다는 것입니다.

(?:(?:\u000D\u000A)|(?:[\u0E40\u0E41\u0E42\u0E43\u0E44\u0EC0\u0EC1\u0EC2\u0EC3\u0EC4\uAAB5\uAAB6\uAAB9\uAABB\uAABC]*(?:[\u1100-\u115F\uA960-\uA97C]+|([\u1100-\u115F\uA960-\uA97C]*((?:[[\u1160-\u11A2\uD7B0-\uD7C6][\uAC00\uAC1C\uAC38]][\u1160-\u11A2\uD7B0-\uD7C6]*|[\uAC01\uAC02\uAC03\uAC04])[\u11A8-\u11F9\uD7CB-\uD7FB]*))|[\u11A8-\u11F9\uD7CB-\uD7FB]+|[^[\p{Zl}\p{Zp}\p{Cc}\p{Cf}&&[^\u000D\u000A\u200C\u200D]]\u000D\u000A])[[\p{Mn}\p{Me}\u200C\u200D\u0488\u0489\u20DD\u20DE\u20DF\u20E0\u20E2\u20E3\u20E4\uA670\uA671\uA672\uFF9E\uFF9F][\p{Mc}\u0E30\u0E32\u0E33\u0E45\u0EB0\u0EB2\u0EB3]]*)|(?s:.))

Java에서는 다음과 같이 작성합니다.

String extended_grapheme_cluster = "(?:(?:\\u000D\\u000A)|(?:[\\u0E40\\u0E41\\u0E42\\u0E43\\u0E44\\u0EC0\\u0EC1\\u0EC2\\u0EC3\\u0EC4\\uAAB5\\uAAB6\\uAAB9\\uAABB\\uAABC]*(?:[\\u1100-\\u115F\\uA960-\\uA97C]+|([\\u1100-\\u115F\\uA960-\\uA97C]*((?:[[\\u1160-\\u11A2\\uD7B0-\\uD7C6][\\uAC00\\uAC1C\\uAC38]][\\u1160-\\u11A2\\uD7B0-\\uD7C6]*|[\\uAC01\\uAC02\\uAC03\\uAC04])[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]*))|[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]+|[^[\\p{Zl}\\p{Zp}\\p{Cc}\\p{Cf}&&[^\\u000D\\u000A\\u200C\\u200D]]\\u000D\\u000A])[[\\p{Mn}\\p{Me}\\u200C\\u200D\\u0488\\u0489\\u20DD\\u20DE\\u20DF\\u20E0\\u20E2\\u20E3\\u20E4\\uA670\\uA671\\uA672\\uFF9E\\uFF9F][\\p{Mc}\\u0E30\\u0E32\\u0E33\\u0E45\\u0EB0\\u0EB2\\u0EB3]]*)|(?s:.))";

¡ Tschüß!

— tchrist
소스

이것은 놀랍다. 감사합니다.

— Tim Pietzcker

그리스도, 그것은 깨달음의 대답입니다. Jon Skeet 참조 만 얻지 못합니다. 그는 이것과 무슨 관련이 있습니까?

— BalusC 2010

@BalusC : 이전에 Jon이 질문을 던지도록하겠다고 말한 심판입니다. 그러나 제발 t@tchrist를 떨어 뜨리지 마십시오. 내 머리에 갈 수도 있습니다. :)

— tchrist 2010

이것을 OpenJDK에 추가하는 것에 대해 생각해 보셨습니까?

— Martijn Verburg

@Martijn : 나는하지 않았다. 나는 그것이 "개방"인지 몰랐다. :)하지만 좀 더 공식적인 의미에서 공개하는 것에 대해 생각했습니다. 우리 부서의 다른 사람들은 (아마도 BSD 또는 ASL과 같은 일종의 오픈 소스 라이센스로) 그 작업이 완료되기를 원합니다. 이 알파 프로토 타입에서 API를 변경하고 코드를 정리하는 등의 작업을 수행 할 것입니다.하지만 이는 우리에게 엄청난 도움이되며 다른 사람들에게도 도움이 될 것이라고 생각합니다. Sun이 라이브러리에 대해 뭔가를 해주 었으면 좋겠지 만 Oracle은 확신을주지 않습니다.

— tchrist

\w작동하지 않는 것은 정말 유감입니다 . 제안 된 솔루션\p{Alpha} 이 저에게도 효과가 없습니다.

[\p{L}]모든 유니 코드 문자를 잡는 것 같습니다 . 따라서에 해당하는 유니 코드 \w는 [\p{L}\p{Digit}_].

— musiKk
소스

그러나 \w숫자 등도 일치합니다. 나는 편지만으로도 효과가 있다고 생각 \p{L}합니다.

— Tim Pietzcker

네가 옳아. \p{L}충분합니다. 또한 편지 만 문제라고 생각했습니다. [\p{L}\p{Digit}_]밑줄을 포함한 모든 영숫자를 잡아야합니다.

— musiKk

@MusicKk : 패턴을 정상적으로 작성할 수있는 완전한 솔루션에 대한 내 대답을 참조하십시오.하지만 Java의 틈새를 수정하는 함수를 통해 전달하여 유니 코드에서 제대로 작동합니다.

— tchrist

아니요, \w유니 코드 \pL는 모든 어리석은 것들의 ASCII 숫자 보다 훨씬 더 넓은 것으로 정의합니다 . Java 용 [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]유니 코드 인식 \w을 원하면 작성해야합니다. 또는 여기unicode_charclass 에서 내 함수를 사용할 수 있습니다 . 죄송합니다!

— tchrist

@Tim, 예, 편지 \pL는 작동합니다 (한 글자로 된 소품을 받아 들일 필요가 없습니다). 그러나 데이터가 유니 코드 정규화 형식 D (일명 NFD, 표준 분해를 의미 함 )에있는 것과 NFC (NFD 다음에 표준이 뒤 따름)에 있기 때문에 일치하는 결과가 다른 답을 얻지 않도록주의해야하기 때문에이를 원하지는 않습니다. 구성 ). 예를 들어 코드 포인트 U + E9 ( "é")는 \pLNFC 형식이지만 NFD 형식은 U + 65.301이되므로 \pL\pM. 당신은 할 수 좀 와이 주위에 얻을 \X: (?:(?=\pL)\X)하지만 당신은 자바에 대한 그의 내 버전이 필요합니다. :(

— tchrist

자바에서 \w와 \d유니 코드를 인식하지 않습니다; ASCII 문자 [A-Za-z0-9_]및 [0-9]. \p{Alpha}친구도 마찬가지입니다 (기반으로하는 POSIX "문자 클래스"는 로케일에 민감해야하지만 Java에서는 ASCII 문자 만 일치했습니다). 유니 코드 "단어 문자"를 일치 시키려면 철자를 입력해야합니다. 예 :[\pL\p{Mn}\p{Nd}\p{Pc}] 문자, 비 간격 수정 자 (악센트), 십진수 및 연결 구두점).

그러나 Java \b 는 유니 코드에 정통합니다. Character.isLetterOrDigit(ch)악센트 부호가있는 문자도 사용 하고 확인하지만 인식하는 유일한 "연결 구두점"문자는 밑줄입니다. 편집 : 샘플 코드를 시도하면 인쇄 ""되고 élève"있어야합니다 ( ideone.com에서 확인 ).

— 앨런 무어
소스

미안 해요, 앨런.하지만 자바 \b가 유니 코드에 정통 하다고 말할 수는 없습니다 . 그것은 수많은 실수를합니다. "\u2163=", "\u24e7="그리고 "\u0301="모두가 일치하는 패턴에 실패 "\\b="자바되지만 가정 에 -로 perl -le 'print /\b=/ || 0 for "\x{2163}=", "\x{24e7}=", "\x{301}="'보여준다. 그러나 Java 의 네이티브 대신 내 버전의 단어 경계 를 바꾸는 경우 (및 경우에만) \bJava에서도 모두 작동합니다.

— tchrist

@tchrist : 나는 \b'의 정확성 에 대해 언급 하지 않았고, 단지 ASCII 문자 \w와 친구들이 아닌 유니 코드 문자 (Java로 구현 됨)에서 작동한다는 점을 지적했습니다 . 그러나에서와 같이 \u0301해당 문자가 기본 문자와 쌍을 이룰 때 와 관련하여 올바르게 작동합니다 e\u0301=. 그리고 저는이 경우에 Java가 잘못되었다고 확신하지 않습니다. 문자가있는 자소 클러스터의 일부가 아니라면 결합 표시를 단어 문자로 간주 할 수 있습니까?

— Alan Moore

@Alan, 이것은 유니 코드가 확장 된 자소 클러스터와 레거시 자소 클러스터를 논의함으로써 자소 클러스터를 명확히 할 때 해결 된 것입니다. 여기서 그래 핀 클러스터의 기존 정의, \X당신이 일치하는 모든 파일을 설명 할 수 있어야하기 때문에 자국의 수에 따라 비 표시의 약자는 문제가 /^(\X*\R)*\R?$/있지만, 당신은이 할 수없는 경우 \pM의 시작 파일, 또는 라인. 그래서 그들은 항상 적어도 하나의 캐릭터와 일치하도록 확장했습니다. 항상 그랬지만 이제는 위의 패턴이 작동합니다. [… 계속…]

— tchrist

@Alan, Java의 네이티브 \b가 부분적으로 유니 코드를 인식 한다는 것은 유익보다는 해를 끼칩니다 . "élève"패턴에 대해 문자열 을 일치시키는 것을 고려하십시오 \b(\w+)\b. 문제가 보이십니까?

— tchrist 2010

@tchrist : 예, 경계라는 단어가 없으면 \w+두 개의 일치 항목을 찾습니다. l및 ve, 이는 충분히 나쁩니다. 하지만 함께 하기 때문에 단어 경계는 아무것도 발견하지 \b인식 é과 è단어를 문자로. 아주 최소한 \b와 \w단어 문자의 내용에 동의하고 무엇을하지 않습니다한다.

— Alan Moore