많은 최신 정규식 구현에서는 \w문자 클래스 속기를 "모든 문자, 숫자 또는 연결 구두점"(일반적으로 밑줄)으로 해석합니다 . 그런 식으로, 같은 정규식 \w+일치하는 단어는 좋아 hello, élève, GOÄ_432또는 gefräßig. 불행히도 Java는 그렇지 않습니다. 자바에서 \w제한됩니다 [A-Za-z0-9_]. 이로 인해 위에서 언급 한 것과 같은 단어를 일치시키기가 어렵고 다른 문제가 있습니다. 또한 \b단어 구분자가 …
문자열 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ'에서 일부 유니 코드 기호를 삭제해야합니다. 나는 그들이 여기에 확실히 존재한다는 것을 알고 있습니다. 나는 시도했다 : re.sub('([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)', '', 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ') 하지만 작동하지 않습니다. 문자열은 동일하게 유지됩니다. 내가 도대체 뭘 잘못하고있는 겁니까?