변형 문자셋으로 인코딩 된 일반 텍스트 파일이 많이 있습니다.
나는 그것들을 모두 UTF-8로 변환하고 싶지만 iconv를 실행하기 전에 원래 인코딩을 알아야합니다. 대부분의 브라우저에는 Auto Detect
인코딩 옵션이 있지만 너무 많아서 텍스트 파일을 하나씩 확인할 수 없습니다.
원래 인코딩 만 알고 있으면로 텍스트를 변환 할 수 있습니다 iconv -f DETECTED_CHARSET -t utf-8
.
일반 텍스트 파일의 인코딩을 감지하는 유틸리티가 있습니까? 100 % 완벽 할 필요는 없습니다. 1,000,000 개의 파일로 100 개의 파일이 잘못 변환 되어도 상관 없습니다.
python-chardet
우분투 유니버스 리포지토리 와 같이 이미 패키지되어 있습니다.