문자 인코딩 문제 로 텍스트 파일 (예 : 모국어 자막 파일, 페르시아어 )이 자주 발생합니다 . 이 파일들은 Windows에서 만들어지며 부적절한 인코딩 (ANSI로 간주)으로 저장됩니다.
Windows에서는 아래와 같이 Notepad ++ 를 사용 하여 인코딩을 UTF-8로 변환 하여 쉽게 해결할 수 있습니다.
그리고 읽을 수있는 올바른 결과는 다음과 같습니다.
GNU / Linux에서 비슷한 솔루션을 많이 찾았지만 안타깝게도 제안 된 솔루션 (예 : 이 질문 )이 작동하지 않습니다. 무엇보다도, 나는 사람들이 제안 본 적이 iconv
하고 recode
있지만 이러한 도구와 운이 없었 없습니다. 다음을 포함하여 많은 명령을 테스트했으며 모두 실패했습니다.
$ recode ISO-8859-15..UTF8 file.txt
$ iconv -f ISO8859-15 -t UTF-8 file.txt > out.txt
$ iconv -f WINDOWS-1252 -t UTF-8 file.txt > out.txt
이 중 어느 것도 효과가 없었습니다!
Ubuntu-14.04를 사용하고 있으며 메모장 ++처럼 작동하는 간단한 솔루션 (GUI 또는 CLI)을 찾고 있습니다.
"간단한"이라는 한 가지 중요한 측면은 사용자가 소스 인코딩을 결정할 필요가 없다는 것입니다. 대신 소스 인코딩은 도구에서 자동으로 감지해야하며 사용자는 대상 인코딩 만 제공해야합니다. 그럼에도 불구하고, 소스 인코딩을 제공해야하는 작동 솔루션에 대해서도 알게되어 기쁩니다.
다른 솔루션을 조사하기 위해 테스트 사례가 필요한 경우 위의 예제는 이 링크를 통해 액세스 할 수 있습니다 .
iso-639
하지만 iconv
또는 에서 사용할 수없는 것 같습니다 recode
. 적어도의 출력에서 볼 수 없습니다 iconv -l
.
vim
했지만 작동하지 않았습니다.
vim '+set fileencoding=utf-8' '+wq' file.txt
.