BOM이있는 UTF-8 인코딩 파일이 있으며 BOM을 제거하고 싶습니다. 파일에서 BOM을 제거하는 Linux 명령 행 도구가 있습니까? $ file test.xml test.xml: XML 1.0 document, UTF-8 Unicode (with BOM) text, with very long lines
번역 된 문자열을 제공하는 오픈 소스 프로젝트에 기여하고 싶습니다. 요구 사항 중 하나는 제공자가 PO 파일의 인코딩으로 UTF-8을 사용해야한다는 것입니다. Linux에서 VIM 7.3을 사용하고 있습니다. .po 파일을 올바르게 편집하고 저장할 수 있도록 VIM의 인코딩이 UTF-8로 설정되어 있는지 어떻게 확인할 수 있습니까?
다음과 같은 간단한 스크립트를 실행하면 #!/bin/bash printf "%-20s %s\n" "Früchte und Gemüse" "foo" printf "%-20s %s\n" "Milchprodukte" "bar" printf "%-20s %s\n" "12345678901234567890" "baz" 다음을 인쇄합니다. Früchte und Gemüse foo Milchprodukte bar 12345678901234567890 baz 즉, 움라우트가있는 텍스트 (예 :) ü는 움라우트 당 한 문자 씩 "줄어 듭니다". 확실히, 나는 어딘가에 잘못된 …
알 수 없거나 혼합 된 인코딩의 텍스트 파일이 있습니다. UTF-8이 아닌 바이트 시퀀스를 포함하는 줄을보고 싶습니다 (텍스트 파일을 일부 프로그램으로 파이핑하여). 마찬가지로, 유효한 UTF-8 행을 필터링하고 싶습니다. 즉, 찾고 있습니다 .grep [notutf8] 이상적인 솔루션은 이식 가능하고 짧고 다른 인코딩에 일반화 할 수 있지만 UTF-8 정의 에서 굽는 것이 가장 좋은 …
다음과 bash같이 시작하면 간단한 코드가 내 컴퓨터에서 예상대로 작동합니다 . function ⏰(){ date } ⏰ 이것을 사용하는 다른 사람들에게 문제가 있습니까, 아니면 보편적입니까? 다른 소스 코드에서 이와 같은 것을 본 적이 없기 때문에 궁금합니다. 편집 : 무한한 가능성이 있으며 예를 들어 이모티콘을 사용하여 기능 역할을 신속하게 구별하는 데 사용할 수 …
파일 (UTF-8)에서 일부 문자를 제거하려고합니다. tr이 목적으로 사용 하고 있습니다 : tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat 파일에는 "Латвийская"또는 "àé"와 같은 일부 외국 문자가 포함되어 있습니다. tr그것들을 이해하지 못하는 것 같습니다 : 알파가 아닌 것으로 취급하고 제거합니다. 로케일 설정 중 일부를 변경하려고했습니다. LC_CTYPE=C LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat …
예를 들면 다음과 같습니다. sed 's/\u0091//g' file1 지금 hexdump은 16 진수를 얻고 sed다음과 같이 입력해야 합니다. $ echo -ne '\u9991' | hexdump -C 00000000 e9 a6 91 |...| 00000003 그리고: $ sed 's/\xe9\xa6\x91//g' file1
최근에 아치 리눅스 서버를 업데이트했고 그 과정에서 tmux가 업데이트되었습니다. tmux업그레이드가 진행되는 동안 사용 하고 있었고 나중에는 동일한 SSH 세션 동안 사용했습니다. 그러나 이제 tmux명령을 실행 하려고 할 때 마다이 오류가 발생합니다. tmux: need UTF-8 locale (LC_CTYPE) but have ANSI_X3.4-1968 locale -a서버 에서의 출력은 다음과 같습니다 . $ locale -a C …
ɛ( "라틴 엡실론")은 일반적으로 영어 "침대"로 모음 소리를 나타 내기 위해 특정 아프리카 언어에서 사용되는 문자입니다. 유니 코드에서는 U + 025B로 인코딩되어 일상과 매우 다릅니다 e. 그러나 sort다음과 같은 경우 : eb ed ɛa ɛc sort고려 ɛ하고 e동등한 것으로 보입니다 . ɛa eb ɛc ed 무슨 일이야? 그리고 목적을 위해 …
유니 코드에서 일부 문자 조합에는 둘 이상의 표현이 있습니다. 예를 들어, 문자 ä 는 다음과 같이 나타낼 수 있습니다. "ä", 즉 코드 포인트 U + 00E4 ( c3 a4UTF-8 인코딩의 2 바이트 ) 또는 "ä"는 두 개의 코드 포인트 U + 0061 U + 0308입니다 ( 61 cc 88UTF-8의 3 …