유니 코드에서 일부 문자 조합에는 둘 이상의 표현이 있습니다.
예를 들어, 문자 ä 는 다음과 같이 나타낼 수 있습니다.
- "ä", 즉 코드 포인트 U + 00E4 (
c3 a4
UTF-8 인코딩의 2 바이트 ) 또는 - "ä"는 두 개의 코드 포인트 U + 0061 U + 0308입니다 (
61 cc 88
UTF-8의 3 바이트 ).
유니 코드 표준에 따르면 두 표현은 동일하지만 "정규화 형식"이 다릅니다 ( UAX # 15 : 유니 코드 정규화 형식 참조) .
유닉스 툴박스에는 sed , tr , iconv , Perl 등 모든 종류의 텍스트 변환 툴 이 있습니다. 명령 줄에서 빠르고 쉬운 NF 변환을 수행하려면 어떻게해야합니까?
perl -MUnicode::Normalization -e 'print NFC(
... 어 , 여기에 무슨 일이야 ...