"깨진"파일 이름이있는 "중국어 간체"파일에서 UFT8로 변환하는 방법


3

영어 MacOS 인터페이스가있는 Mac을 사용합니다. 중국어 웹 사이트 (중국어 간체)에서 파일을 다운로드합니다. 파일 이름이 왜곡되어 있습니다.

왜곡 된 파일 이름 :

% E6 % B9 % 96 % E5 % 8D % 97IPTV.apk

실제 파일 이름 :

湖南 IPTV.apk

나는 내가 다운로드 한 곳의 파일을 알고 있기 때문에 진짜 새로운 것을 안다. MacOS에는 "iconv"명령이 있다는 것을 알고 있습니다. 하지만 적절한 인코딩 유형을 모르겠습니다.

"iconv -l"명령은 많은 유형을 보여줍니다. 그것들 모두를 나열합니다.

인스턴스의 경우, 나는 " iconv -f GB_2312-80 -t UTF-8 orig.txt > new.txt ".

즉, GB_2312-80 형식의 파일을 UTF-8로 변환합니다.

그러나 사이트에서 다운로드 한 파일의 시스템에 "왜곡 된"파일 이름이있는 이유를 모르겠습니다.

이 깨진 파일의 실제 문자 형식을 알고 싶습니다. 이것은 나의 질문이다.

Furmore, 아래 목록에 따르면 " iconv -l "이 명령은 다음과 같이 가능한"중국어 간체 파일 이름 형식 유형 "입니까? 네가 알면.

응답 형식과 관련된 모든 형식을 시도해야합니까? 그것은 지루하고 느린 방법으로 보인다.

또한 MacOS의 문자 형식에 문제가 있습니까? 네가 알면.

> ANSI_X3.4-1968 ANSI_X3.4-1986 ASCII CP367 IBM367 ISO-IR-6 ISO646-US 
> ISO_646.IRV:1991 US US-ASCII CSASCII UTF-8 ISO-10646-UCS-2 UCS-2   
> CSUNICODE UCS-2BE UNICODE-1-1 UNICODEBIG CSUNICODE11 UCS-2LE   
> UNICODELITTLE ISO-10646-UCS-4 UCS-4 CSUCS4 UCS-4BE UCS-4LE UTF-16   
> UTF-16BE UTF-16LE UTF-32 UTF-32BE UTF-32LE UNICODE-1-1-UTF-7 UTF-7  
> CSUNICODE11UTF7 UCS-2-INTERNAL UCS-2-SWAPPED UCS-4-INTERNAL   
> UCS-4-SWAPPED C99 JAVA CP819 IBM819 ISO-8859-1 ISO-IR-100 ISO8859-1 
> ISO_8859-1 ISO_8859-1:1987 L1 LATIN1 CSISOLATIN1 ISO-8859-2   
> ISO-IR-101 ISO8859-2 ISO_8859-2 ISO_8859-2:1987 L2 LATIN2 CSISOLATIN2 
> ISO-8859-3 ISO-IR-109 ISO8859-3 ISO_8859-3 ISO_8859-3:1988 L3 LATIN3  
> CSISOLATIN3 ISO-8859-4 ISO-IR-110 ISO8859-4 ISO_8859-4   
> ISO_8859-4:1988 L4 LATIN4 CSISOLATIN4 CYRILLIC ISO-8859-5 ISO-IR-144  
> ISO8859-5 ISO_8859-5 ISO_8859-5:1988 CSISOLATINCYRILLIC ARABIC   
> ASMO-708 ECMA-114 ISO-8859-6 ISO-IR-127 ISO8859-6 ISO_8859-6   
> ISO_8859-6:1987 CSISOLATINARABIC ECMA-118 ELOT_928 GREEK GREEK8   
> ISO-8859-7 ISO-IR-126 ISO8859-7 ISO_8859-7 ISO_8859-7:1987   
> ISO_8859-7:2003 CSISOLATINGREEK HEBREW ISO-8859-8 ISO-IR-138   
> ISO8859-8 ISO_8859-8 ISO_8859-8:1988 CSISOLATINHEBREW ISO-8859-9   
> ISO-IR-148 ISO8859-9 ISO_8859-9 ISO_8859-9:1989 L5 LATIN5 CSISOLATIN5 
> ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 ISO_8859-10:1992 L6   
> LATIN6 CSISOLATIN6 ISO-8859-11 ISO8859-11 ISO_8859-11 ISO-8859-13   
> ISO-IR-179 ISO8859-13 ISO_8859-13 L7 LATIN7 ISO-8859-14 ISO-CELTIC  
> ISO-IR-199 ISO8859-14 ISO_8859-14 ISO_8859-14:1998 L8 LATIN8   
> ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 ISO_8859-15:1998   
> LATIN-9 ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16   
> ISO_8859-16:2001 L10 LATIN10 KOI8-R CSKOI8R KOI8-U KOI8-RU CP1250   
> MS-EE WINDOWS-1250 CP1251 MS-CYRL WINDOWS-1251 CP1252 MS-ANSI   
> WINDOWS-1252 CP1253 MS-GREEK WINDOWS-1253 CP1254 MS-TURK WINDOWS-1254 
> CP1255 MS-HEBR WINDOWS-1255 CP1256 MS-ARAB WINDOWS-1256 CP1257   
> WINBALTRIM WINDOWS-1257 CP1258 WINDOWS-1258 850 CP850 IBM850   
> CSPC850MULTILINGUAL 862 CP862 IBM862 CSPC862LATINHEBREW 866 CP866   
> IBM866 CSIBM866 CP1131 MAC MACINTOSH MACROMAN CSMACINTOSH   
> MACCENTRALEUROPE MACICELAND MACCROATIAN MACROMANIA MACCYRILLIC   
> MACUKRAINE MACGREEK MACTURKISH MACHEBREW MACARABIC MACTHAI HP-ROMAN8  
> R8 ROMAN8 CSHPROMAN8 NEXTSTEP ARMSCII-8 GEORGIAN-ACADEMY GEORGIAN-PS  
> KOI8-T CP154 CYRILLIC-ASIAN PT154 PTCP154 CSPTCP154 KZ-1048 RK1048   
> STRK1048-2002 CSKZ1048 MULELAO-1 CP1133 IBM-CP1133 ISO-IR-166 TIS-620 
> TIS620 TIS620-0 TIS620.2529-1 TIS620.2533-0 TIS620.2533-1 CP874   
> WINDOWS-874 VISCII VISCII1.1-1 CSVISCII TCVN TCVN-5712 TCVN5712-1   
> TCVN5712-1:1993 ISO-IR-14 ISO646-JP JIS_C6220-1969-RO JP   
> CSISO14JISC6220RO JISX0201-1976 JIS_X0201 X0201 CSHALFWIDTHKATAKANA   
> ISO-IR-87 JIS0208 JIS_C6226-1983 JIS_X0208 JIS_X0208-1983   
> JIS_X0208-1990 X0208 CSISO87JISX0208 ISO-IR-159 JIS_X0212   
> JIS_X0212-1990 JIS_X0212.1990-0 X0212 CSISO159JISX02121990 CN   
> GB_1988-80 ISO-IR-57 ISO646-CN CSISO57GB1988 CHINESE GB_2312-80   
> ISO-IR-58 CSISO58GB231280 CN-GB-ISOIR165 ISO-IR-165 ISO-IR-149 KOREAN 
> KSC_5601 KS_C_5601-1987 KS_C_5601-1989 CSKSC56011987 EUC-JP EUCJP   
> EXTENDED_UNIX_CODE_PACKED_FORMAT_FOR_JAPANESE CSEUCPKDFMTJAPANESE   
> MS_KANJI SHIFT-JIS SHIFT_JIS SJIS CSSHIFTJIS CP932 ISO-2022-JP   
> CSISO2022JP ISO-2022-JP-1 ISO-2022-JP-2 CSISO2022JP2 CP50221   
> ISO-2022-JP-MS CN-GB EUC-CN EUCCN GB2312 CSGB2312 GBK CP936 MS936   
> WINDOWS-936 GB18030 ISO-2022-CN CSISO2022CN ISO-2022-CN-EXT HZ   
> HZ-GB-2312 EUC-TW EUCTW CSEUCTW BIG-5 BIG-FIVE BIG5 BIGFIVE CN-BIG5 
> CSBIG5 CP950 BIG5-HKSCS:1999 BIG5-HKSCS:2001 BIG5-HKSCS:2004   
> BIG5-HKSCS BIG5-HKSCS:2008 BIG5HKSCS EUC-KR EUCKR CSEUCKR CP949 UHC 
> CP1361 JOHAB ISO-2022-KR CSISO2022KR

Google은 파일 이름이 Hunan IPTV
Buscar웃

E6 B9 96은 U + 6e56 湖의 UTF-8 바이트입니다. 따라서 인코딩은 이미 utf-8입니다. 이름은 어떤 이유에서든 바이트에 대한 이스케이프를 사용하는 것으로, 다운로드하는 파일 시스템이나 다운로드 프로세스와 관련이 있습니다.
Tom Gewecke

안녕, 나는 그것을 변환 할 수있는 도구를 발견. 나는 또한 "url-encoding"을 발견했다. tool.chinaz.com/tools/urlencode.aspx % E6 % B9 % 96 % E5 % 8D % 97 "큰 문자와 숫자가있는 % 기호"와 같은 문자 형식입니다. 그러나 iconv를 사용할 수 있다면 실행시 형식 유형이 무엇입니까? 나는 또한 다른 문자 형식을 발견했다. 그것은 "url-encoding"이 아닙니다. 나는 다른 스레드에 게시 할 수 있습니다. (여기) 나는 여기에 게시합니다. " × Ô Ó Î ¿ ¼ ¾ ½ º "이것은 URL 인코딩이 아닙니까?
jefferyear

답변:


3

당신이 사용할 수있는 UnicodeChecker earthlingsoft (프리웨어)에서.
그들의 웹 사이트에서 :

변환 HTML, CSS, URL, IDNA 및 다양한 프로그래밍 언어 • 문자열이 이미 정규화되어 있는지 여부 (NFC, NFKC, NFD 및 NFKD)를 나타내는 유니 코드 정규화 • 코드 포인트 및 코드 분할을 기준으로 문자열 코드 포인트를 분석하는 분할 및 차이 도구 차이점 강조하기 • 대부분의 기능은 '서비스'메뉴와 AppleScript를 통해 사용하는 모든 응용 프로그램에서 사용할 수 있습니다.

나는 당신의 끈을 베꼈습니다. % E6 % B9 % 96 % E5 % 8D % 97IPTV.apk TextEdit에 붙여넣고 그것을 선택한 다음 선택했습니다. TextEdit menu → Services → Replace Percent Escapes. 선택한 텍스트를 湖南 IPTV.apk .

그것은 훌륭한 전환 옵션을 제공하고 2000 년대 초반부터 Mac에 제공되는 훌륭한 응용 프로그램입니다. 활성화 할 서비스를 선택할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.