모든 비 ASCII (\ x00- \ x7F) 문자를 공백으로 바꿔야합니다. 내가 뭔가 빠진 것이 아니라면 파이썬에서 이것이 쉽지 않은 것에 놀랐습니다. 다음 함수는 단순히 비 ASCII 문자를 모두 제거합니다.
def remove_non_ascii_1(text):
return ''.join(i for i in text if ord(i)<128)
그리고 이것은 ASCII가 아닌 문자를 문자 코드 포인트의 바이트 양에 따라 공백으로 바꿉니다 (즉, –
문자가 3 개의 공백으로 바뀝니다).
def remove_non_ascii_2(text):
return re.sub(r'[^\x00-\x7F]',' ', text)
ASCII가 아닌 모든 문자를 단일 공백으로 바꾸려면 어떻게해야합니까?
의 무수한 의 유사한 SO의 질문에 , 없음 주소 문자 교체 로 반대 에 제거 , 그리고 추가로 모든 비 ASCII 문자가 아닌 특정 문자 해결합니다.
–
. 그건 이 사람 .