엑셀 인코딩
나는 발견 된 WINDOWS-1252
엑셀을 다룰 때 가장 좌절로 인코딩. 기본적으로 Microsoft 자체의 독점 문자 세트이므로 Mac 및 Windows 버전의 MS-Excel에서 모두 작동한다고 가정 할 수 있습니다. 두 버전 모두 최소한 데이터를 올바르게 읽는 해당 "파일 원본"또는 "파일 인코딩"선택기가 포함되어 있습니다.
시스템 및 사용하는 도구에 따라이 인코딩은 이름이 될 수있다 CP1252
, ANSI
, Windows (ANSI)
, MS-ANSI
아니면 그냥 Windows
다른 변화들.
이 인코딩은 ISO-8859-1
(일명 LATIN1
기타) 의 상위 집합 이므로 어떤 이유로 ISO-8859-1
사용할 수없는 경우 대체 할 수 있습니다 WINDOWS-1252
. 다음과 같이 ISO-8859-1
일부 문자가 누락되었습니다 WINDOWS-1252
.
| Char | ANSI | Unicode | ANSI Hex | Unicode Hex | HTML entity | Unicode Name | Unicode Range |
| € | 128 | 8364 | 0x80 | U+20AC | € | euro sign | Currency Symbols |
| ‚ | 130 | 8218 | 0x82 | U+201A | ‚ | single low-9 quotation mark | General Punctuation |
| ƒ | 131 | 402 | 0x83 | U+0192 | ƒ | Latin small letter f with hook | Latin Extended-B |
| „ | 132 | 8222 | 0x84 | U+201E | „ | double low-9 quotation mark | General Punctuation |
| … | 133 | 8230 | 0x85 | U+2026 | … | horizontal ellipsis | General Punctuation |
| † | 134 | 8224 | 0x86 | U+2020 | † | dagger | General Punctuation |
| ‡ | 135 | 8225 | 0x87 | U+2021 | ‡ | double dagger | General Punctuation |
| ˆ | 136 | 710 | 0x88 | U+02C6 | ˆ | modifier letter circumflex accent | Spacing Modifier Letters |
| ‰ | 137 | 8240 | 0x89 | U+2030 | ‰ | per mille sign | General Punctuation |
| Š | 138 | 352 | 0x8A | U+0160 | Š | Latin capital letter S with caron | Latin Extended-A |
| ‹ | 139 | 8249 | 0x8B | U+2039 | ‹ | single left-pointing angle quotation mark | General Punctuation |
| Œ | 140 | 338 | 0x8C | U+0152 | Œ | Latin capital ligature OE | Latin Extended-A |
| Ž | 142 | 381 | 0x8E | U+017D | | Latin capital letter Z with caron | Latin Extended-A |
| ‘ | 145 | 8216 | 0x91 | U+2018 | ‘ | left single quotation mark | General Punctuation |
| ’ | 146 | 8217 | 0x92 | U+2019 | ’ | right single quotation mark | General Punctuation |
| “ | 147 | 8220 | 0x93 | U+201C | “ | left double quotation mark | General Punctuation |
| ” | 148 | 8221 | 0x94 | U+201D | ” | right double quotation mark | General Punctuation |
| • | 149 | 8226 | 0x95 | U+2022 | • | bullet | General Punctuation |
| – | 150 | 8211 | 0x96 | U+2013 | – | en dash | General Punctuation |
| — | 151 | 8212 | 0x97 | U+2014 | — | em dash | General Punctuation |
| ˜ | 152 | 732 | 0x98 | U+02DC | ˜ | small tilde | Spacing Modifier Letters |
| ™ | 153 | 8482 | 0x99 | U+2122 | ™ | trade mark sign | Letterlike Symbols |
| š | 154 | 353 | 0x9A | U+0161 | š | Latin small letter s with caron | Latin Extended-A |
| › | 155 | 8250 | 0x9B | U+203A | › | single right-pointing angle quotation mark | General Punctuation |
| œ | 156 | 339 | 0x9C | U+0153 | œ | Latin small ligature oe | Latin Extended-A |
| ž | 158 | 382 | 0x9E | U+017E | | Latin small letter z with caron | Latin Extended-A |
| Ÿ | 159 | 376 | 0x9F | U+0178 | Ÿ | Latin capital letter Y with diaeresis | Latin Extended-A |
점을 유의 유로 기호가없는 . 이 테이블은 Alan Wood 에서 찾을 수 있습니다 .
변환
도구와 언어에 따라 변환이 다르게 수행됩니다. 그러나 query_result.csv
알고 있는 파일 이 UTF-8
인코딩 되어 있다고 가정합니다 . 다음을 WINDOWS-1252
사용하여 변환하십시오 iconv
.
iconv -f UTF-8 -t WINDOWS-1252 query_result.csv > query_result-win.csv