소스 코드에서 인용 된 문자열이나 문자에 일반 텍스트를 입력 할 수 있고 실제 문자를 볼 수있는 것이 매우 좋습니다. 예를 들어, pi 기호 'π'또는 표의 문자 '𠀊'은 pi의 경우 '\ u3c0'및 표의 경우 L '\ u2000A'보다 훨씬 좋습니다.
괜찮은 편집기에서 ASCII 문자와 마찬가지로 이러한 문자를 입력 및 / 또는 복사하여 소스 코드에 직접 붙여 넣을 수 있습니다.
단어 설명이 때로는 집으로 몰려 가지 않는 것을 개념화하고 이해하는 데 도움이되는 구체적인 예가 있습니다. 다음의 간단한 예제 코드 스 니펫과 같이 소스 코드에 입력 된 유니 코드 문자 상수를 개념화하십시오.
const unsigned char ASCII_0X7E = (unsigned char) '~';
const unsigned short UNICODE_0X3C0 = (unsigned short) 'π';
const unsigned long UNICODE_0X2000A = (unsigned long) '𠀊';
const unsigned long UNICODE_0X2893D = (unsigned long) '𨤽';
ASCII 물결표 문자 '~'는 ASCII 또는 UTF-8 소스 파일로 저장할 수 있지만 유니 코드 문자는 ASCII 형식으로 저장할 수 없습니다. PI 기호 'π'는 유니 코드 코드 포인트 0x3c0이며 UTF-8 형식으로 2 바이트 값 0xcf, 0x80으로 저장 될 수 있습니다. 유니 코드 코드 포인트 0x2000a 및 0x2893d의 표의 문자에는 4 바이트 UTF-8 시퀀스가 필요합니다.
해당 문자가 의도 한 값을 유지하고 컴파일러가이를 의도 한대로 해석하려면 소스 코드를 UTF-8 또는 UTF-16과 같은 유니 코드 문자 세트를 지원하는 형식으로 저장해야합니다. UTF-8로 저장된 경우 알맞은 컴파일러는 의도 한 값을 이해하고 해석하며 적절한 편집기는 문자를 올바르게로드하고 표시합니다.
다른 사람들이 지적했듯이 소스 코드에 ASCII 범위를 벗어난 문자가 없으면 UTF-8로 저장하면 ASCII 파일을 저장하는 것과 다른 파일이 생성됩니다. 8은 ASCII 문자 범위에서 ASCII와 겹치도록 설계되었습니다. ASCII 범위를 벗어난 소스 코드에 문자를 입력하자마자 알맞은 편집기가 파일 저장에 사용할 인코딩을 선택해야한다는 메시지를 표시합니다. UTF-8은 ASCII를 그대로 처리 할 수 있고 개발 환경에서 지원되는 거의 모든 다른 문자를 처리 할 수 있기 때문에 좋은 선택입니다.