파일 (UTF-8)에서 일부 문자를 제거하려고합니다. tr
이 목적으로 사용 하고 있습니다 :
tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat
파일에는 "Латвийская"또는 "àé"와 같은 일부 외국 문자가 포함되어 있습니다. tr
그것들을 이해하지 못하는 것 같습니다 : 알파가 아닌 것으로 취급하고 제거합니다.
로케일 설정 중 일부를 변경하려고했습니다.
LC_CTYPE=C LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat
LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=C tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat
LC_CTYPE=ru_RU.UTF-8 LC_COLLATE=ru_RU.UTF-8 tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat
불행히도 이들 중 어느 것도 효과가 없었습니다.
tr
유니 코드 를 이해하려면 어떻게 해야합니까?