정말 이상한“UTF-8”코드


0

imdb에서 tsv.gz (csv) 파일 형식으로 데이터베이스를 다운로드했습니다. Imdb는 파일이 UTF-8 ( https://www.imdb.com/interfaces/?ref_=login ) 이라고 말 했지만 메모장과 Excel에서 파일을 볼 때 중국어 문자 / 기호이므로 파이썬에서 사용할 수 없다고 가정합니다. 아무도 무슨 일이 있었는지 어떻게해야하는지 알고 있습니까?


1
안녕하세요, 수퍼 유저에 오신 것을 환영합니다! 최상의 답변을 얻는 데 도움이되도록 파일을 열기 위해 수행 한 특정 단계를 추가하십시오. 예를 들어, 파이썬으로 파일을 여는 것에 대한 참조를 만들었습니다. 어떤 메소드 나 라이브러리를 사용하도록 대답을 확장 할 수 있습니까? 지금까지 더 구체적으로 단계를 세울수록 누군가가 정확한 문제를 더 빨리 이해할 수 있습니다. 또한 "Imdb가 파일이 UTF-8로되어 있다고 말한 곳"에 대한 링크를 제공하여 사람들이 사용중인 참조를 볼 수 있도록하십시오. :)
baelx

1
링크를 추가했지만 쓸모없는 것처럼 보이기 때문에 파이썬에서 읽으려고하지 않았으며 시간을 낭비하고 싶지 않은 많은 데이터 줄이 있습니다. 또한 팁 주셔서 감사합니다.
JTalbott

답변:


1

추가 된 세부 사항에 감사드립니다.

다운로드 한 파일은 gzip을 사용하여 압축되며 그대로 보려고하면보고있는 문자로 해석됩니다. 메모장이나 Excel에서 텍스트를 보려면 먼저 압축풀어야 합니다.

Dave가 아래에 언급했듯이 압축을 풀기 위해 여러 개의 우편 / 보관 도구를 사용할 수 있습니다. google "windows에서 .gz 파일 압축 해제"를 수행하고 단계를 수행 할 수도 있습니다.

압축이 풀리면 IMBD와 같이 .tsv 확장자를 가진 파일을 가져와야합니다.

.gz 파일 의 압축을 이미 풀 었으나 여전히 이상한 문자가 표시되는 경우 파일 을 열지 않고 Excel로 가져와야 할 수도 있습니다 . 이에 대해서는 다음 안내서를 참조하십시오 .

희망이 도움이됩니다! 진행 상황에 대해 자유롭게 의견을 말하십시오.


2
아니요, 타르가 아닙니다. imdb 페이지와 확장자 .tsv.gz가 나타내는 것처럼 gzip으로 압축 된 TSV 파일입니다. 모든 파일은 gzip으로 처리 할 수 ​​있습니다 (일부는 실제로 짧아지지 않으므로 어리석은 일이지만) 실제로 tar 형식으로 아카이브 된 gzip 파일은 일반적이지만 다른 종류의 파일을 gzip으로하는 것이 일반적입니다. WinZip은 실제로 .tar.gz뿐만 아니라 .gz를 압축 해제 할 수 있으며 7zip도 믿을 수 있으며 Excel은 실제로 메모리가 충분하지 않은 경우 압축되지 않은 TSV를 열 수 있습니다.이 파일은 크기가 커서
dave_thompson_085

1
죄송합니다! 당신은 데이브입니다. 그건 내 실수 일 뿐이지 만 근본적인 문제는 동일하며 파일을 Excel로 가져 오기 전에 초기 압축 해제가 필요하다고 생각합니다. 대답을 업데이트하겠습니다
baelx

1

title.ratings.tsv.gz를 다운로드하여 사용했습니다. 문제 없습니다.

다음 단계를 수행하십시오.

  • 압축을 해제하십시오 (Win 사용자 인 경우 7zip 유틸리티를 사용할 수 있음).
  • 단순히 여는 것보다

Excel을 사용하는 경우 가져 오기 프로세스를 사용해야합니다 ( http://www.arj.no/2013/06/28/how-to-import-tsv-file-in-ms-excel/ ).

메모장에서 이런 식으로 나타납니다

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.