«character-encoding» 태그된 질문

ASCII, UTF-8, EBCDIC 등과 같은 문자 및 문자 세트의 다양한 표현을 다루는 질문. 캐리지 리턴 및 / 또는 줄 바꾸기 문자를 사용하여 줄 바꾸기를 인코딩하는 운영 체제간에 파일을 이동할 때 종종 발생합니다.

4
CRLF 줄 종결자를 사용하여 비 ISO 확장 ASCII 텍스트에서 UTF-8로 인코딩을 변경하는 방법은 무엇입니까?
txt 파일이 있습니다. $ file -i x.txt x.txt: text/plain; charset=unknown-8bit $ file x.txt x.txt: Non-ISO extended-ASCII text, with CRLF line terminators 그리고 잘못 인코딩 된 문자가 있습니다. trwa³y, sta³y, usuwaæ 이 파일의 인코딩을 UTF-8로 어떻게 변경합니까? 지금까지 다음과 같은 방법으로 시도했습니다. $ iconv -f ASCII -t UTF-8 x.txt puiconv: illegal …

4
특수 문자가있는 파일의 대량 이름 바꾸기 (또는 올바르게 표시)
이 파일과 같이 특수 문자가 포함 된 파일을 포함하는 많은 디렉토리와 하위 디렉토리가 있습니다. robbie@phil:~$ ls test�sktest.txt test?sktest.txt 찾기는 이스케이프 시퀀스를 나타냅니다. robbie@phil:~$ find test�sktest.txt -ls 424512 4000 -rwxr--r-x 1 robbie robbie 4091743 Jan 26 00:34 test\323sktest.txt 콘솔에서 이름을 입력 할 수있는 유일한 이유는 탭 완성 때문입니다. 이것은 또한 수동으로 …

2
pandoc을 사용하여 .docx를 .pdf로 변환
pandoc을 사용하여 메일로 수신 된 .docx를 올바른 pdf로 변환하려고합니다 (GNU / Linux를 사용하고 있습니다). 문자 인코딩과 관련된 오류가 있습니다. $ pandoc file.docx -o file.pdf pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream 인코딩을 식별하려고했습니다. $ file -i file .docx file.docx: application/vnd.openxmlformats-officedocument.wordprocessingml.document; charset=binary 나는 charset=binary(나는 기대하고 있었다 charset=iso8859-15) 약간 놀랐다 …

2
현재 로케일의 지정된 문자 클래스에서 문자 목록을 검색하는 명령
현재 로케일에서 지정된 문자 클래스 (예 blank: alpha,, digit...) 의 모든 문자 목록을 검색하는 방법은 무엇입니까? 예를 들어 LC_ALL=en_GB.UTF-8 that-command blank 이상적으로는 데비안 시스템에서 다음과 같이 표시됩니다. 09 U+0009 HORIZONTAL TAB 20 U+0020 SPACE e1 9a 80 U+1680 OGHAM SPACE MARK e1 a0 8e U+180E MONGOLIAN VOWEL SEPARATOR e2 80 …

3
고양이 이상에서 지원되는 문자 인코딩
에 따라 다음과 같이 인코딩 된 텍스트 파일이 있습니다 file. CRLF 줄 종결자가있는 ISO-8859 텍스트 이 파일에는 악센트가있는 프랑스어 텍스트가 포함되어 있습니다. 내 셸은 악센트를 표시 할 수 emacs있으며 콘솔 모드에서는 이러한 악센트를 올바르게 표시 할 수 있습니다. 내 문제는이다 more, cat그리고 less도구가 제대로이 파일을 표시하지 않습니다. 나는이 도구 가이 …

6
히브리 이름을 가진 파일의 ZIP 아카이브를 올바르게 압축 해제하려면 어떻게해야합니까?
누군가 히브리어 이름을 가진 파일이 들어있는 ZIP 파일을 보냈습니다 (그리고 어떤 도구로 확실하지 않은 경우 Windows에서 생성). 데비안 스트레치에서 LXDE를 사용합니다. Gnome 아카이브 관리자는 파일의 압축을 풀지 만 히브리어 문자는 깨집니다. 나는 생각 나는 이름이 네 문자와 .DOC의 suffic을 가진 파일을 예를 들어 I, 유니 코드 문자로 확장 UTF-8 옥텟을 …

1
SSH에는 외국 문자가 표시되지 않습니다
사용 ssh및 원격 서버 사용에 문제가 있습니다 (관리자 액세스 권한이 없음)-특히 한국어 및 키릴 문자가있는 폴더가 몇 개 있습니다. 로 상위 폴더 내용을 표시하면 ls문자가 "?"로 이스케이프됩니다. 아마도 한글 문자가 있어야 하는 문자 수보다 훨씬 더 많이 나오는 것처럼 보입니다 . 사용중인 터미널 프로그램이 문자를 sftp완벽하게 표시하므로 문자를 표시 할 …

2
ssh 및 문자 인코딩
언제를 ssh내 VPS에, 나는 한 irssi화면에서 실행. 누군가가 유니 코드 문자 (예 : © 또는 €)를 보내면 세션 irssi의 화면을 통해 사용할 때 가비지를 표시합니다 ssh. irssi로컬 컴퓨터에서 실행되는 irssi에서 irssi의 프록시 모듈 을 사용하여 연결하면 올바르게 표시됩니다. 마찬가지로 VPS (화면 외부)에서 ghci를 실행하고 해당 문자 중 하나를 입력하면 충돌이 …

3
U + xxxxx 코드로 지정된 이모티콘을 utf-8로 변환하는 방법은 무엇입니까?
이모티콘은 U + xxxxx 형식을 사용하여 지정된 것 같습니다. 여기서 각 x는 16 진수입니다. 예를 들어 U + 1F615 는 "혼란 된 얼굴"에 대한 공식 유니 코드 컨소시엄 코드 입니다. 나는 종종 혼란스러워서이 상징에 대해 강한 친근감을 가지고 있습니다. U + 1F615 I 유니 코드 문자 만 가능한 인코딩은 8, …

3
UTF-8에서`cut -c` (`--characters)를 사용할 수 없습니까?
이 명령 cut에는 옵션이있는 -c바이트 대신 문자를 처리하는 옵션이 -b있습니다. 그러나 en_US.UTF-8로케일 에서는 작동하지 않는 것 같습니다 . 두 번째 바이트는 두 번째 ASCII 문자를 제공합니다 (UTF-8과 동일하게 인코딩 됨). $ printf 'ABC' | cut -b 2 B UTF-8 로켈에서 세 개의 그리스어 비 ASCII 문자 중 두 번째를 제공하지 …

3
십진수를 ASCII 문자로 인쇄하면 명령이 의도 한대로 출력되지 않습니다
다음 명령으로 모든 ASCII 문자의 문자열을 출력하고 싶었습니다. for i in `seq 32 127`; do printf "%c" $i; done 위 명령의 출력은 다음과 같습니다. 33333334444444444555555555566666666667777777777.............. 각 숫자의 첫 번째 (왼쪽부터) 숫자입니다. 이 사이트를 통해 문제에 대한 답을 찾았습니다. CLI에서 인쇄 가능한 모든 ASCII 문자를 인쇄하는 방법은 무엇입니까? 그러나 원본 스 …

2
iconv 잘못된 입력 순서-왜?
텍스트 파일을 ASCII 파일로 변환하려고 할 때 오류 메시지가 나타납니다 iconv: illegal input sequence at position. 내가 사용하는 명령은 iconv -f UTF-8 -t ascii//TRANSLIT file 문제가되는 캐릭터는 æ입니다. 텍스트 파일 자체가 여기에 있습니다 . 왜 잘못된 순서라고 말합니까? 입력 문자는 올바른 UTF-8 문자 (U + 00E6)입니다.


2
HTML 대신 바이너리를 반환합니까?
정적 HTML 페이지를 다운로드하기 위해 wget을 사용하고 있습니다. W3C Validator는 페이지가 UTF-8로 인코딩되었음을 알려줍니다. 그러나 다운로드 후 파일을 고양이로 만들면 바이너리 넌센스가 많이 발생합니다. 우분투를 사용 중이며 기본 인코딩이 UTF-8이라고 생각 했습니까? 그것이 내 로케일 파일이 말하는 것입니다. 왜 이런 일이 발생하며 어떻게 해결할 수 있습니까? 또한처럼 보입니다 Content-Encoding: gzip. …

5
Firefox에서 대체 인코딩을 UTF-8로 설정하는 방법은 무엇입니까?
노르웨이 마크 다운 문서를 작성했습니다. $ file brukerveiledning.md brukerveiledning.md: UTF-8 Unicode text 다음 markdown명령을 사용하여 HTML로 변환했습니다 . $ markdown > brukerveiledning.html < brukerveiledning.md $ file brukerveiledning.html brukerveiledning.html: UTF-8 Unicode text 그러나 Firefox는 "windows-1252"인코딩 을 사용하여 비 ASCII 문자를 손상시킵니다. 대체 텍스트 인코딩을 "현재 로캘의 기본값"(영국에서는 ISO-8859-1 또는 UTF-8이어야 함)에서 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.