imdb에서 tsv.gz (csv) 파일 형식으로 데이터베이스를 다운로드했습니다. Imdb는 파일이 UTF-8 ( https://www.imdb.com/interfaces/?ref_=login ) 이라고 말 했지만 메모장과 Excel에서 파일을 볼 때 중국어 문자 / 기호이므로 파이썬에서 사용할 수 없다고 가정합니다. 아무도 무슨 일이 있었는지 어떻게해야하는지 알고 있습니까?
imdb에서 tsv.gz (csv) 파일 형식으로 데이터베이스를 다운로드했습니다. Imdb는 파일이 UTF-8 ( https://www.imdb.com/interfaces/?ref_=login ) 이라고 말 했지만 메모장과 Excel에서 파일을 볼 때 중국어 문자 / 기호이므로 파이썬에서 사용할 수 없다고 가정합니다. 아무도 무슨 일이 있었는지 어떻게해야하는지 알고 있습니까?
답변:
추가 된 세부 사항에 감사드립니다.
다운로드 한 파일은 gzip을 사용하여 압축되며 그대로 보려고하면보고있는 문자로 해석됩니다. 메모장이나 Excel에서 텍스트를 보려면 먼저 압축 을 풀어야 합니다.
Dave가 아래에 언급했듯이 압축을 풀기 위해 여러 개의 우편 / 보관 도구를 사용할 수 있습니다. google "windows에서 .gz 파일 압축 해제"를 수행하고 단계를 수행 할 수도 있습니다.
압축이 풀리면 IMBD와 같이 .tsv 확장자를 가진 파일을 가져와야합니다.
.gz 파일 의 압축을 이미 풀 었으나 여전히 이상한 문자가 표시되는 경우 파일 을 열지 않고 Excel로 가져와야 할 수도 있습니다 . 이에 대해서는 다음 안내서를 참조하십시오 .
희망이 도움이됩니다! 진행 상황에 대해 자유롭게 의견을 말하십시오.
title.ratings.tsv.gz를 다운로드하여 사용했습니다. 문제 없습니다.
다음 단계를 수행하십시오.
Excel을 사용하는 경우 가져 오기 프로세스를 사용해야합니다 ( http://www.arj.no/2013/06/28/how-to-import-tsv-file-in-ms-excel/ ).
메모장에서 이런 식으로 나타납니다