비표준 문자가 포함 된 매우 큰 데이터 세트로 작업하려고합니다. 작업 사양에 따라 유니 코드를 사용해야하지만 당황합니다. (그리고 아마도 모든 것을 잘못하고 있습니다.)
다음을 사용하여 CSV를 엽니 다.
15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"')
그런 다음 다음으로 인코딩을 시도합니다.
name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), state=row[11].encode('utf-8'), zip5=row[12], zip4=row[13],county=row[25].encode('utf-8'), lat=row[22], lng=row[23])
API로 보내야하기 때문에 lat 및 lng를 제외한 모든 것을 인코딩하고 있습니다. 프로그램을 실행하여 데이터 세트를 내가 사용할 수있는 것으로 구문 분석하면 다음과 같은 Traceback이 표시됩니다.
Traceback (most recent call last):
File "push_into_db.py", line 80, in <module>
main()
File "push_into_db.py", line 74, in main
district_map = buildDistrictSchoolMap()
File "push_into_db.py", line 32, in buildDistrictSchoolMap
county=row[25].encode('utf-8'), lat=row[22], lng=row[23])
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 2: ordinal not in range(128)
python 2.7.2를 사용하고 있으며 이것은 django 1.4에서 앱 빌드의 일부라고 말해야한다고 생각합니다. 이 주제에 대한 여러 게시물을 읽었지만 직접 적용되는 게시물은 없습니다. 어떤 도움이라도 대단히 감사하겠습니다.
문제를 일으키는 일부 비표준 문자가 Ñ이고 가능하면 É인지 알고 싶을 수도 있습니다.