Python으로 UTF8 CSV 파일 읽기

Question 1

Python으로 악센트 부호가있는 문자가있는 CSV 파일을 읽으려고합니다 (프랑스어 및 / 또는 스페인어 문자 만 해당). csvreader에 대한 Python 2.5 문서 ( http://docs.python.org/library/csv.html ) 를 기반으로 csvreader가 ASCII 만 지원하므로 CSV 파일을 읽기 위해 다음 코드를 작성했습니다.

def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs):
    # csv.py doesn't do Unicode; encode temporarily as UTF-8:
    csv_reader = csv.reader(utf_8_encoder(unicode_csv_data),
                            dialect=dialect, **kwargs)
    for row in csv_reader:
        # decode UTF-8 back to Unicode, cell by cell:
        yield [unicode(cell, 'utf-8') for cell in row]

def utf_8_encoder(unicode_csv_data):
    for line in unicode_csv_data:
        yield line.encode('utf-8')

filename = 'output.csv'
reader = unicode_csv_reader(open(filename))
try:
    products = []
    for field1, field2, field3 in reader:
        ...

아래는 내가 읽으려고하는 CSV 파일의 발췌 본입니다.

0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert
...

UTF-8로 인코딩 / 디코딩을 시도해도 여전히 다음 예외가 발생합니다.

Traceback (most recent call last):
  File ".\Test.py", line 53, in <module>
    for field1, field2, field3 in reader:
  File ".\Test.py", line 40, in unicode_csv_reader
    for row in csv_reader:
  File ".\Test.py", line 46, in utf_8_encoder
    yield line.encode('utf-8', 'ignore')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 68: ordinal not in range(128)

이 문제를 어떻게 해결합니까?

Question 2

이 .encode메서드는 유니 코드 문자열에 적용되어 바이트 문자열을 만듭니다. 하지만 대신 바이트 문자열로 호출하고 있습니다. codecs표준 라이브러리 의 모듈을 살펴보고 codecs.open특히 UTF-8로 인코딩 된 텍스트 파일을 읽기위한 더 나은 일반 솔루션을 찾으십시오 . 그러나 csv특히 모듈의 경우 utf-8 데이터를 전달해야하며 이것이 이미 얻은 것이므로 코드를 훨씬 간단하게 만들 수 있습니다.

import csv

def unicode_csv_reader(utf8_data, dialect=csv.excel, **kwargs):
    csv_reader = csv.reader(utf8_data, dialect=dialect, **kwargs)
    for row in csv_reader:
        yield [unicode(cell, 'utf-8') for cell in row]

filename = 'da.csv'
reader = unicode_csv_reader(open(filename))
for field1, field2, field3 in reader:
  print field1, field2, field3

추신 : 입력 데이터가 utf-8이 아니라 ISO-8859-1에있는 것으로 판명되면 "트랜스 코딩"이 필요합니다 ( csv모듈 수준 에서 utf-8을 사용하려는 경우 ). 양식의 line.decode('whateverweirdcodec').encode('utf-8')-하지만 아마 당신은 단지에있는 기존 인코딩의 이름을 사용할 수 있습니다 yield대신, 위의 내 코드 라인 'utf-8'으로, csv실제로 ISO-8859- * 인코딩 bytestrings와 잘 될 것입니다.

Question 3

파이썬 2.X

이 유니 코드-CSV는 새로운 CSV 관련 코드를 작성하는 naving하지의 추가 혜택과 함께 문제를 해결해야 라이브러리.

다음은 readme의 예입니다.

>>> import unicodecsv
>>> from cStringIO import StringIO
>>> f = StringIO()
>>> w = unicodecsv.writer(f, encoding='utf-8')
>>> w.writerow((u'é', u'ñ'))
>>> f.seek(0)
>>> r = unicodecsv.reader(f, encoding='utf-8')
>>> row = r.next()
>>> print row[0], row[1]
é ñ

파이썬 3.X

파이썬 3에서 이것은 내장 csv모듈에 의해 즉시 지원됩니다 . 이 예를 참조하십시오.

import csv
with open('some.csv', newline='', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

Question 4

인코딩 utf-8을 사용하여 CSV 파일을 읽으려면 다음과 같은 것을 사용하는 것이 좋습니다.

with open(file_name, encoding="utf8") as csv_file:

이 명령문을 사용하면 나중에 CSV 리더를 사용하여 작업 할 수 있습니다.

Question 5

이 게시물의 답변도 확인하십시오. https://stackoverflow.com/a/9347871/1338557

ucsv.py라는 라이브러리 사용을 제안합니다. Python 2.7의 인코딩 문제 (utf-8)를 해결하기 위해 작성된 CSV의 짧고 간단한 대체. 또한 csv.DictReader에 대한 지원을 제공합니다.

편집 : 내가 사용한 샘플 코드 추가 :

import ucsv as csv

#Read CSV file containing the right tags to produce
fileObj = open('awol_title_strings.csv', 'rb')
dictReader = csv.DictReader(fileObj, fieldnames = ['titles', 'tags'], delimiter = ',', quotechar = '"')
#Build a dictionary from the CSV file-> {<string>:<tags to produce>}
titleStringsDict = dict()
for row in dictReader:
    titleStringsDict.update({unicode(row['titles']):unicode(row['tags'])})

Question 6

codecs.openAlex Martelli가 제안한대로 사용 하는 것이 나에게 유용하다는 것이 입증되었습니다.

import codecs

delimiter = ';'
reader = codecs.open("your_filename.csv", 'r', encoding='utf-8')
for line in reader:
    row = line.split(delimiter)
    # do something with your row ...

Question 7

도움말 페이지에 대한 링크는 파이썬 2.6과 동일하며 2.5 이후로 csv 모듈에 변경 사항이 없다는 것을 알고 있습니다 (버그 수정 제외). 다음은 인코딩 / 디코딩없이 작동하는 코드입니다 (da.csv 파일에는 변수 data 와 동일한 데이터가 포함됨 ). 변환없이 파일을 올바르게 읽어야한다고 가정합니다.

test.py :

## -*- coding: utf-8 -*-
#
# NOTE: this first line is important for the version b) read from a string(unicode) variable
#

import csv

data = \
"""0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert"""

# a) read from a file
print 'reading from a file:'
for (f1, f2, f3) in csv.reader(open('da.csv'), dialect=csv.excel):
    print (f1, f2, f3)

# b) read from a string(unicode) variable
print 'reading from a list of strings:'
reader = csv.reader(data.split('\n'), dialect=csv.excel)
for (f1, f2, f3) in reader:
    print (f1, f2, f3)

da.csv :

0665000FS10120684,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Bleu
0665000FS10120689,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Gris
0665000FS10120687,SD1200IS,Appareil photo numérique PowerShot de 10 Mpx de Canon avec trépied (SD1200IS) - Vert

Question 8

아무런 효과가 없다면 길을 벗어나는 것을 잊었을 수도 있습니다.
예를 들어 다음 코드는 다음과 같습니다.

f = open("C:\Some\Path\To\file.csv")

오류가 발생합니다.

SyntaxError : (유니 코드 오류) 'unicodeescape'코덱이 위치 2-3의 바이트를 디코딩 할 수 없습니다. \ UXXXXXXXX 이스케이프가 잘 렸습니다.

수정하려면 다음을 수행하십시오.

f = open("C:\\Some\\Path\\To\\file.csv")

Question 9

Latin-1유니 코드 테이블을 보면 00E9" LATIN SMALL LETTER E WITH ACUTE " 라는 문자 코드가 있습니다. 이것은 샘플 데이터에서 악센트 부호가있는 문자입니다. 의 간단한 테스트는 이 문자의 인코딩이 유니 코드 (거의 ) 인코딩 과 다르다는 Python것을 보여줍니다 .UTF-8UTF-16

>>> u'\u00e9'
u'\xe9'
>>> u'\u00e9'.encode('utf-8')
'\xc3\xa9'
>>>

encode("UTF-8")스페셜을 호출하기 전에 유니 코드 데이터 를 시도하는 것이 좋습니다 unicode_csv_reader(). 파일에서 데이터를 읽는 것만으로 인코딩이 숨겨 질 수 있으므로 실제 문자 값을 확인하십시오.

Question 10

다른 서버에서 동일한 문제가 있었지만 로케일이 엉망임을 깨달았습니다.

export LC_ALL="en_US.UTF-8"

문제를 해결