소스 코드
아래에서 설명하는 재 작성 기능의 소스 코드 는 여기에서 확인할 수 있습니다. .
Java 7의 업데이트
Pattern
JDK7에 대한 Sun의 업데이트 된 클래스에는 UNICODE_CHARACTER_CLASS
모든 것이 다시 올바르게 작동하도록 하는 놀라운 새 플래그가 있습니다. (?U)
패턴 내부에 임베드 가능 하므로 String
클래스의 래퍼 와 함께 사용할 수도 있습니다. 또한 다양한 다른 속성에 대한 정의를 수정했습니다. 지금은 유니 코드 모두에서 표준, 추적 RL1.2 및 RL1.2a을 에서 UTS # 18 : 유니 코드 정규 표현식 . 이것은 흥미롭고 극적인 개선이며, 개발 팀은이 중요한 노력에 대해 칭찬받을 것입니다.
자바의 정규식 유니 코드 문제
의미 - 자바 정규 표현식에 대한 문제는 펄 1.0 charclass 탈출이다 \w
, \b
, \s
, \d
과 보완이 -하지 자바에서 유니 코드 일까지 연장. 이들 중 단독으로 \b
특정 확장 된 의미론을 즐기지 만, 이들은 \w
, 유니 코드 식별자 또는 유니 코드 줄 바꿈 속성에 매핑되지 않습니다 .
또한 Java의 POSIX 속성은 다음과 같은 방법으로 액세스됩니다.
POSIX syntax Java syntax
[[:Lower:]] \p{Lower}
[[:Upper:]] \p{Upper}
[[:ASCII:]] \p{ASCII}
[[:Alpha:]] \p{Alpha}
[[:Digit:]] \p{Digit}
[[:Alnum:]] \p{Alnum}
[[:Punct:]] \p{Punct}
[[:Graph:]] \p{Graph}
[[:Print:]] \p{Print}
[[:Blank:]] \p{Blank}
[[:Cntrl:]] \p{Cntrl}
[[:XDigit:]] \p{XDigit}
[[:Space:]] \p{Space}
이 일을 좋아한다는 것을 의미하기 때문에, 진짜 엉망이다 Alpha
, Lower
그리고 Space
할 수 없는 유니 코드에 자바지도에서 Alphabetic
, Lowercase
또는 Whitespace
속성. 이것은 매우 성가신 일입니다. Java의 유니 코드 속성 지원은 엄격하게 천년 전입니다. 입니다. 즉, 지난 10 년 동안 나온 유니 코드 속성은 지원하지 않습니다.
공백에 대해 제대로 말할 수 없다는 것은 매우 성가신 일입니다. 다음 표를 고려하십시오. 각 코드 포인트에는 Java 용 J-results 열과 Perl 또는 기타 PCRE 기반 정규식 엔진 용 P-results 열이 있습니다.
Regex 001A 0085 00A0 2029
J P J P J P J P
\s 1 1 0 1 0 1 0 1
\pZ 0 0 0 0 1 1 1 1
\p{Zs} 0 0 0 0 1 1 0 0
\p{Space} 1 1 0 1 0 1 0 1
\p{Blank} 0 0 0 0 0 1 0 0
\p{Whitespace} - 1 - 1 - 1 - 1
\p{javaWhitespace} 1 - 0 - 0 - 1 -
\p{javaSpaceChar} 0 - 0 - 1 - 1 -
저거 봐?
거의 모든 Java 공백 결과는 Unicode에 따라 ̲w̲r̲o̲n̲g̲입니다. 그것은이다 정말 큰 문제. 자바는 단지 엉망이되어 기존 관행과 유니 코드에 따라 "잘못된"답변을 제공합니다. 게다가 Java는 실제 유니 코드 속성에 대한 액세스도 제공하지 않습니다! 사실, 자바는 지원하지 않는 모든 유니 코드 공백에 해당하는 속성을.
이러한 모든 문제에 대한 해결책 등
이 문제와 다른 많은 관련 문제를 처리하기 위해 어제이 14 개의 문자 클래스 이스케이프를 다시 작성하는 패턴 문자열을 다시 작성하는 Java 함수를 작성했습니다.
\w \W \s \S \v \V \h \H \d \D \b \B \X \R
예측 가능하고 일관된 방식으로 유니 코드와 일치하도록 실제로 작동하는 것으로 대체합니다. 단일 해킹 세션의 알파 프로토 타입 일 뿐이지 만 완전히 작동합니다.
짧은 이야기는 내 코드가 다음과 같이 14를 다시 작성한다는 것입니다.
\s => [\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\S => [^\u0009-\u000D\u0020\u0085\u00A0\u1680\u180E\u2000-\u200A\u2028\u2029\u202F\u205F\u3000]
\v => [\u000A-\u000D\u0085\u2028\u2029]
\V => [^\u000A-\u000D\u0085\u2028\u2029]
\h => [\u0009\u0020\u00A0\u1680\u180E\u2000-\u200A\u202F\u205F\u3000]
\H => [^\u0009\u0020\u00A0\u1680\u180E\u2000\u2001-\u200A\u202F\u205F\u3000]
\w => [\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\W => [^\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]
\b => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))
\B => (?:(?<=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?=[\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])|(?<![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]])(?![\pL\pM\p{Nd}\p{Nl}\p{Pc}[\p{InEnclosedAlphanumerics}&&\p{So}]]))
\d => \p{Nd}
\D => \P{Nd}
\R => (?:(?>\u000D\u000A)|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029])
\X => (?>\PM\pM*)
고려해야 할 몇 가지 사항 ...
이는 유니 코드 가 확장 된 자소 클러스터 가 아닌 레거시 자소 클러스터 로 지칭되는\X
것을 정의 하기 위해 사용 합니다. 후자는 좀 더 복잡하기 때문입니다. Perl 자체는 이제 더 멋진 버전을 사용하지만 이전 버전은 여전히 가장 일반적인 상황에서 완벽하게 작동합니다. 편집 : 하단의 부록 참조.
수행 할 작업은 \d
의도 에 따라 다르지만 기본값은 Uniode 정의입니다. 나는 사람들이 항상 원하는 \p{Nd}
것은 아니지만 때때로 [0-9]
또는 둘 중 하나를 볼 수 있습니다 \pN
.
두 경계 정의는, \b
과 \B
, 특히 사용하기 위해 작성되는 \w
정의를.
그 \w
정의는 지나치게 넓습니다. 왜냐하면 원으로 표시된 글자뿐만 아니라 괄호 안의 글자도 잡기 때문입니다. 유니 코드 Other_Alphabetic
속성은 JDK7까지는 사용할 수 없으므로 이것이 최선입니다.
경계 탐색
경계 래리 벽이 먼저 만들어 낸 이후로 문제가되었습니다 \b
및 \B
방법을 이해하기 위해 1987 년에 펄 1.0 다시 그들에 대한 중요한 이야기에 대한 구문을 \b
하고 \B
두 작품은 그들에 대해이 보급 신화를 풀다하는 것입니다 :
- 그들은되어 오직보고하지 위해
\w
, 단어 문자 결코 단어가 아닌 문자.
- 그들은 특별히 끈의 가장자리를 찾지 않습니다.
\b
경계 수단 :
IF does follow word
THEN doesn't precede word
ELSIF doesn't follow word
THEN does precede word
그리고 그것들은 모두 다음과 같이 완벽하게 간단하게 정의됩니다.
- 단어 다음 IS를
(?<=\w)
입니다.
- 선행 단어 입니다
(?=\w)
.
- 단어가 따르지 않는 것입니다
(?<!\w)
.
- 하지 않습니다 앞에 단어 입니다
(?!\w)
.
따라서 IF-THEN
는and
ED-함께 AB
정규 표현식에에서,는 or
이며 X|Y
, 및 때문에 and
우선 높은 것보다 or
간단하다, AB|CD
. 따라서 모든 \b
것은 경계를 다음으로 안전하게 대체 할 수 있음을 의미합니다.
(?:(?<=\w)(?!\w)|(?<!\w)(?=\w))
에 \w
적절한 방법으로 정의.
(당신은 것을 이상한 생각 A
과 C
구성 요소는 정반대 완벽한 세계에서, 당신은 쓸 수 있어야합니다. AB|D
하지만 내가 유니 코드 속성에서 상호 배제 모순 추격하는 동안 - 내가 생각을 내가 알아서 한을 ,하지만 만일을 대비하여 경계에 이중 조건을 남겨 두었습니다. 또한 나중에 추가 아이디어를 얻으면 더 확장 가능합니다.)
를 들어 \B
비 경계, 논리는 다음과 같습니다
IF does follow word
THEN does precede word
ELSIF doesn't follow word
THEN doesn't precede word
의 모든 인스턴스 \B
를 다음으로 대체 할 수 있습니다.
(?:(?<=\w)(?=\w)|(?<!\w)(?!\w))
이것은 정말 방법입니다 \b
이며 \B
행동합니다. 그들과 동등한 패턴은
\b
구성을 사용하는 ((IF)THEN|ELSE)
것은(?(?<=\w)(?!\w)|(?=\w))
\B
사용하여 ((IF)THEN|ELSE)
것은(?(?=\w)(?<=\w)|(?<!\w))
하지만 버전은 AB|CD
Java와 같은 정규식 언어에 조건부 패턴이없는 경우에는 특히 괜찮습니다. ☹
나는 이미 실행 당 110,385,408 개의 일치를 확인하는 테스트 스위트와 함께 세 가지 동등한 정의를 모두 사용하여 경계의 동작을 확인했으며 다음과 같이 12 개의 다른 데이터 구성에서 실행했습니다.
0 .. 7F the ASCII range
80 .. FF the non-ASCII Latin1 range
100 .. FFFF the non-Latin1 BMP (Basic Multilingual Plane) range
10000 .. 10FFFF the non-BMP portion of Unicode (the "astral" planes)
그러나 사람들은 종종 다른 종류의 경계를 원합니다. 그들은 공백과 문자열 가장자리를 인식하는 무언가를 원합니다.
- 좌측 에지 로서
(?:(?<=^)|(?<=\s))
- 우단 로서
(?=$|\s)
Java로 Java 수정
다른 답변에 게시 한 코드 는 이것과 다른 몇 가지 편의를 제공합니다. 여기에는 자연어 단어, 대시, 하이픈 및 아포스트로피에 대한 정의와 그 이상이 포함됩니다.
또한 바보 같은 UTF-16 서로 게이트가 아닌 논리적 코드 포인트에서 유니 코드 문자를 지정할 수 있습니다. 그것이 얼마나 중요한지 지나치게 강조하기는 어렵습니다!그리고 그것은 단지 문자열 확장을위한 것입니다.
Java 정규식의 charclass가 마침내 유니 코드에서 작동하고 올바르게 작동하도록 하는 정규식 charclass 대체의 경우 여기에서 전체 소스를 가져 옵니다 . 물론 원하는대로 할 수 있습니다. 당신이 그것을 고치면 나는 그것을 듣고 싶지만 당신은 그럴 필요가 없습니다. 꽤 짧습니다. 주요 정규식 재 작성 기능의 핵심은 간단합니다.
switch (code_point) {
case 'b': newstr.append(boundary);
break; /* switch */
case 'B': newstr.append(not_boundary);
break; /* switch */
case 'd': newstr.append(digits_charclass);
break; /* switch */
case 'D': newstr.append(not_digits_charclass);
break; /* switch */
case 'h': newstr.append(horizontal_whitespace_charclass);
break; /* switch */
case 'H': newstr.append(not_horizontal_whitespace_charclass);
break; /* switch */
case 'v': newstr.append(vertical_whitespace_charclass);
break; /* switch */
case 'V': newstr.append(not_vertical_whitespace_charclass);
break; /* switch */
case 'R': newstr.append(linebreak);
break; /* switch */
case 's': newstr.append(whitespace_charclass);
break; /* switch */
case 'S': newstr.append(not_whitespace_charclass);
break; /* switch */
case 'w': newstr.append(identifier_charclass);
break; /* switch */
case 'W': newstr.append(not_identifier_charclass);
break; /* switch */
case 'X': newstr.append(legacy_grapheme_cluster);
break; /* switch */
default: newstr.append('\\');
newstr.append(Character.toChars(code_point));
break; /* switch */
}
saw_backslash = false;
어쨌든, 그 코드는 단지 알파 릴리스 일뿐입니다. 주말에 제가 해킹 한 것입니다. 그렇게되지 않을 것입니다.
베타의 경우 다음을 수행합니다.
프로덕션 릴리스의 경우 javadoc 및 JUnit 테스트 스위트가 있어야합니다. 내 gigatester를 포함시킬 수 있지만 JUnit 테스트로 작성되지 않았습니다.
추가
좋은 소식과 나쁜 소식이 있습니다.
좋은 소식은 제가 이제 확장 된 자소 클러스터 에 매우 근접 하여 개선 된 .\X
나쁜 소식은 ☺ 그 패턴이 다음과 같다는 것입니다.
(?:(?:\u000D\u000A)|(?:[\u0E40\u0E41\u0E42\u0E43\u0E44\u0EC0\u0EC1\u0EC2\u0EC3\u0EC4\uAAB5\uAAB6\uAAB9\uAABB\uAABC]*(?:[\u1100-\u115F\uA960-\uA97C]+|([\u1100-\u115F\uA960-\uA97C]*((?:[[\u1160-\u11A2\uD7B0-\uD7C6][\uAC00\uAC1C\uAC38]][\u1160-\u11A2\uD7B0-\uD7C6]*|[\uAC01\uAC02\uAC03\uAC04])[\u11A8-\u11F9\uD7CB-\uD7FB]*))|[\u11A8-\u11F9\uD7CB-\uD7FB]+|[^[\p{Zl}\p{Zp}\p{Cc}\p{Cf}&&[^\u000D\u000A\u200C\u200D]]\u000D\u000A])[[\p{Mn}\p{Me}\u200C\u200D\u0488\u0489\u20DD\u20DE\u20DF\u20E0\u20E2\u20E3\u20E4\uA670\uA671\uA672\uFF9E\uFF9F][\p{Mc}\u0E30\u0E32\u0E33\u0E45\u0EB0\u0EB2\u0EB3]]*)|(?s:.))
Java에서는 다음과 같이 작성합니다.
String extended_grapheme_cluster = "(?:(?:\\u000D\\u000A)|(?:[\\u0E40\\u0E41\\u0E42\\u0E43\\u0E44\\u0EC0\\u0EC1\\u0EC2\\u0EC3\\u0EC4\\uAAB5\\uAAB6\\uAAB9\\uAABB\\uAABC]*(?:[\\u1100-\\u115F\\uA960-\\uA97C]+|([\\u1100-\\u115F\\uA960-\\uA97C]*((?:[[\\u1160-\\u11A2\\uD7B0-\\uD7C6][\\uAC00\\uAC1C\\uAC38]][\\u1160-\\u11A2\\uD7B0-\\uD7C6]*|[\\uAC01\\uAC02\\uAC03\\uAC04])[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]*))|[\\u11A8-\\u11F9\\uD7CB-\\uD7FB]+|[^[\\p{Zl}\\p{Zp}\\p{Cc}\\p{Cf}&&[^\\u000D\\u000A\\u200C\\u200D]]\\u000D\\u000A])[[\\p{Mn}\\p{Me}\\u200C\\u200D\\u0488\\u0489\\u20DD\\u20DE\\u20DF\\u20E0\\u20E2\\u20E3\\u20E4\\uA670\\uA671\\uA672\\uFF9E\\uFF9F][\\p{Mc}\\u0E30\\u0E32\\u0E33\\u0E45\\u0EB0\\u0EB2\\u0EB3]]*)|(?s:.))";
¡ Tschüß!