UnicodeEncodeError : 'latin-1'코덱은 문자를 인코딩 할 수 없습니다.


95

데이터베이스에 외래 문자를 삽입하려고 할 때이 오류의 원인은 무엇입니까?

>>UnicodeEncodeError: 'latin-1' codec can't encode character u'\u201c' in position 0: ordinal not in range(256)

그리고 어떻게 해결합니까?

감사!


40
dB = MySQLdb.connect (호스트 = "localhost"를, 사용자 = "루트", passwd를 = "", dB = "TESTDB", use_unicode = 사실, 캐릭터 세트 = "UTF8")
KyungHoon 김

와, @KyungHoonKim 당신은 내 생명을 구했습니다! 올라간다!
Florian Doyen

답변:


66

문자 U + 201C 왼쪽 큰 따옴표는 Latin-1 (ISO-8859-1) 인코딩에 없습니다.

그것은 이다 코드 페이지 1252 (서유럽)에 존재. 이것은 ISO-8859-1을 기반으로하지만 0x80-0x9F 범위에 추가 문자를 넣는 Windows 관련 인코딩입니다. 코드 페이지 1252는 ISO-8859-1과 혼동되는 경우가 많으며, 페이지를 ISO-8859-1로 제공하면 브라우저가 대신 cp1252로 처리하는 성가 시지만 이제는 표준 웹 브라우저 동작입니다. 그러나 실제로는 두 가지 고유 한 인코딩입니다.

>>> u'He said \u201CHello\u201D'.encode('iso-8859-1')
UnicodeEncodeError
>>> u'He said \u201CHello\u201D'.encode('cp1252')
'He said \x93Hello\x94'

데이터베이스를 바이트 저장소로만 사용하는 경우 cp1252를 사용 하여 Windows Western 코드 페이지에있는 다른 문자와 인코딩 할 수 있습니다 . 그러나 cp1252에없는 다른 유니 코드 문자는 오류를 발생시킵니다.

encode(..., 'ignore')문자를 제거하여 오류를 억제하는 데 사용할 수 있지만 실제로 이번 세기에는 데이터베이스와 페이지 모두에서 UTF-8을 사용해야합니다. 이 인코딩을 사용하면 모든 문자를 사용할 수 있습니다. 또한 이상적으로 MySQL에 UTF-8 문자열을 사용하고 있다고 알려 주어야합니다 (데이터베이스 연결 및 문자열 열에 대한 데이터 정렬을 설정하여). 그러면 대소 문자를 구분하지 않는 비교 및 ​​정렬을 올바르게 수행 할 수 있습니다.


1
아닌가 cp1252ISO-8859-1의 엄격한 상위 집합? 즉, 브라우저가 ISO-8859-1 페이지를 수신하면 범위의 문자가 전혀 없기 때문에 CP1252 인 것처럼 렌더링 할 수 있습니다 0x80-0x9F.
MSalters

3
아니요, 0x80–0x9F 바이트에는 ISO-8859-1에서 실제 할당이 있으며 cp1252의 추가로 재정의되므로 상위 집합이 아닙니다. 제어 문자의 선택 인 유니 코드 문자 U + 0080–U + 009F에 정확히 매핑됩니다. 그것들은 많이 사용되지 않는 제어 문자이기 때문에 브라우저가 그것을 사용하지 못했지만 일련의 바이트를 유니 코드로 변환하려고 할 때 짜증이납니다.
bobince

ISO-8859-1 또는 UTF-8로 인코딩 된 파일에서 U + 0080-U + 009F 범위의 문자를 본 유일한 시간은 일부 광대가 cp850으로 인코딩 된 여러 파일을 연결 한 결과입니다. 그런 다음 결과적인 혼란을 "latin1"에서 UTF-8로 트랜스 코딩합니다. HTML5 사양 초안은 매우 실용적인 브라우저 동작 (및 유사한 사례 전체)을 성화하는 것을 고려하고 있습니다.- whatwg.org
John Machin

94

Python MySQLdb 모듈을 사용할 때 이와 동일한 문제가 발생했습니다. MySQL을 사용하면 문자 집합에 관계없이 텍스트 필드에 원하는 거의 모든 이진 데이터를 저장할 수 있으므로 여기에서 해결책을 찾았습니다.

Python MySQLdb에서 UTF8 사용

편집 : 첫 번째 댓글의 요청을 충족하기 위해 위 URL에서 인용 ...

"UnicodeEncodeError : 'latin-1'코덱이 문자를 인코딩 할 수 없습니다 ..."

이는 MySQLdb가 일반적으로 모든 것을 latin-1로 인코딩하려고하기 때문입니다. 연결을 해제 한 직후 다음 명령을 실행하여이 문제를 해결할 수 있습니다.

db.set_character_set('utf8')
dbc.execute('SET NAMES utf8;')
dbc.execute('SET CHARACTER SET utf8;')
dbc.execute('SET character_set_connection=utf8;')

"db"는의 결과 MySQLdb.connect()이고 "dbc"는의 결과입니다 db.cursor().


1
링크 된 항목의 관련 부분이 답변에 제공되는 것이 좋습니다. 추가 읽기에 대한 링크는 훌륭하지만 대답에 요약 요약을 넣으십시오. :)
Fluffeh

@Fluffeh 그리고 그렇게되었습니다.
CatShoes 2013

1
고마워요, 1000 가지 다른 시도를 해보고 매력처럼 일 했어요.
Juergen Riemer 2013

2
만 문제를 해결해야한다 ( 'UTF-8')를 db.set_character_set
Pandurang 파틸에게

21

가장 좋은 해결책은

  1. mysql의 문자 세트를 'utf-8'로 설정하십시오.
  2. 이 주석을 좋아하십시오 (추가 use_unicode=Truecharset="utf8")

    db = MySQLdb.connect (host = "localhost", user = "root", passwd = "", db = "testdb", use_unicode = True, charset = "utf8") – 김경훈 김경훈 2014-03-13 17:04

세부 사항 참조 :

class Connection(_mysql.connection):

    """MySQL Database Connection Object"""

    default_cursor = cursors.Cursor

    def __init__(self, *args, **kwargs):
        """

        Create a connection to the database. It is strongly recommended
        that you only use keyword parameters. Consult the MySQL C API
        documentation for more information.

        host
          string, host to connect

        user
          string, user to connect as

        passwd
          string, password to use

        db
          string, database to use

        port
          integer, TCP/IP port to connect to

        unix_socket
          string, location of unix_socket to use

        conv
          conversion dictionary, see MySQLdb.converters

        connect_timeout
          number of seconds to wait before the connection attempt
          fails.

        compress
          if set, compression is enabled

        named_pipe
          if set, a named pipe is used to connect (Windows only)

        init_command
          command which is run once the connection is created

        read_default_file
          file from which default client values are read

        read_default_group
          configuration group to use from the default file

        cursorclass
          class object, used to create cursors (keyword only)

        use_unicode
          If True, text-like columns are returned as unicode objects
          using the connection's character set.  Otherwise, text-like
          columns are returned as strings.  columns are returned as
          normal strings. Unicode objects will always be encoded to
          the connection's character set regardless of this setting.

        charset
          If supplied, the connection character set will be changed
          to this character set (MySQL-4.1 and newer). This implies
          use_unicode=True.

        sql_mode
          If supplied, the session SQL mode will be changed to this
          setting (MySQL-4.1 and newer). For more details and legal
          values, see the MySQL documentation.

        client_flag
          integer, flags to use or 0
          (see MySQL docs or constants/CLIENTS.py)

        ssl
          dictionary or mapping, contains SSL connection parameters;
          see the MySQL documentation for more details
          (mysql_ssl_set()).  If this is set, and the client does not
          support SSL, NotSupportedError will be raised.

        local_infile
          integer, non-zero enables LOAD LOCAL INFILE; zero disables

        autocommit
          If False (default), autocommit is disabled.
          If True, autocommit is enabled.
          If None, autocommit isn't set and server default is used.

        There are a number of undocumented, non-standard methods. See the
        documentation for the MySQL C API for some hints on what they do.

        """

1
이 답변에는 더 많은 찬성 투표가 필요합니다. 이것은 불필요한 인코딩 오버 헤드의 애플리케이션 계층을 제거하는 깨끗한 솔루션입니다.
yeaske

큰! 이것이 바로 제가 찾던 것입니다
Geek

또한 .etc가있는 utf8mb4경우 mysql 을 설정 하는 것이 좋습니다 emoji. what-the-the-difference-between-utf8mb4-and-utf8-charsets-in-mysql
Cheney

20

데이터베이스가 UTF-8 이상 이길 바랍니다. 그런 다음 yourstring.encode('utf-8')데이터베이스에 넣기 전에 실행해야 합니다.


3

해당 코드 포인트 \u201cISO-8859-1 / Latin-1설명 할 수없는 인코딩 을 사용하여 유니 코드 코드 포인트를 저장하려고합니다 . utf-8을 사용하도록 데이터베이스를 변경하고 적절한 인코딩을 사용하여 문자열 데이터를 저장해야하거나 콘텐츠를 저장하기 전에 입력을 삭제해야 할 수 있습니다. 즉, Sam Ruby의 훌륭한 i18n 가이드와 같은 것을 사용 합니다 . windows-1252원인 이 될 수 있는 문제에 대해 설명하고 처리 방법과 샘플 코드에 대한 링크를 제안합니다!


2

SQLAlchemy 사용자는 필드를 convert_unicode=True.

예: sqlalchemy.String(1000, convert_unicode=True)

SQLAlchemy는 단순히 유니 코드 개체를 수락하고 다시 반환하여 인코딩 자체를 처리합니다.

문서


1

Latin-1 (일명 ISO 8859-1 )은 단일 옥텟 문자 인코딩 체계이며 \u201c( )를 바이트에 맞출 수 없습니다 .

UTF-8 인코딩을 사용하려고 했습니까?


1
Latin-1은 특정 유니 코드 문자 만 인코딩 하지 않습니다. \ u201c가 바이트에 맞지 않는지 여부는 중요하지 않습니다. 창-1252은 단일 옥텟 인코딩 방식이며, 않습니다 \ u201c을 포함.
Mark Tolonen

cp1253 (일명 windows-1253)도 단일 옥텟 문자 인코딩 체계이지만 \u0391바이트 (특히 바이트 193)에 잘 맞습니다. 당신 그것을보고 싶을 것 입니다 ; 사람들은 그것이 도움이된다는 것을 알게되었습니다.
tzot

유니 코드는 Latin-1 / cp1253 글리프를 16 비트 코드 포인트로 통합합니다. 댓글이 그 반대를 주장하는 것 같아 놀랍습니다.
msw

1

아래 스 니펫을 사용하여 텍스트를 라틴어에서 영어로 변환하십시오.

import unicodedata
def strip_accents(text):
    return "".join(char for char in
                   unicodedata.normalize('NFKD', text)
                   if unicodedata.category(char) != 'Mn')

strip_accents('áéíñóúü')

산출:

'애이 노우'


-3

Python : Python 파일의 첫 번째 줄에 #-*-coding : UTF-8-*-(* 주위의 공백 제거) 를 추가해야합니다. 그런 다음 인코딩 할 텍스트에 .encode ( 'ascii', 'xmlcharrefreplace')를 추가 합니다. 이렇게하면 모든 유니 코드 문자가 해당하는 ASCII 문자로 바뀝니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.