문자 인코딩은 글꼴과 어떤 관련이 있습니까?


답변:


7

기본으로 시작하기 위해 모든 것은 US-ASCII를 기반으로합니다.이 세트에는 128 코드 포인트가있는 7 비트 코드, 16 진수 00에서 7F 또는 10 진수 0-127이 있습니다. 제어 코드, 영어 영숫자 및 기본 문장 부호 문자에 맵핑됩니다.

8 비트 코드 (바이트)에 대해 1 비트를 추가하면 128 코드 포인트 또는 확장 ASCII가 추가로 제공됩니다.

문자 세트 / 코드 페이지는 표현하고자하는 특정 언어의 알파벳을 포함하기 위해 상위 128 비트의 코드 포인트가 문자에 매핑되는 방식을 변경하기 위해 초기에 필요했습니다. 이것은 대부분의 서유럽 언어에서 합리적으로 잘 작동합니다. ISO 8859-1 / Latin-1은 이러한 문자 집합의 예입니다. 다른 하나는 Windows 8852로, ISO 8859-1에서 더 많은 또는 다른 문자를 포함하도록 변경되었습니다.

중국어, 일본어 및 한국어와 같이보다 복잡한 문자 세트가있는 언어는 256 코드 포인트 세트의 기능을 초과하고 2 바이트 코드를 사용하여 표현할 수 있습니다.

유니 코드 UTF-8은 ISO 12859-1 / Latin-1과의 호환성이 처음 128자인 멀티 바이트 문자 인코딩 체계 (1-4 바이트)입니다. 백만 개 이상의 코드 포인트를 수용 할 수있는 공간이 있습니다. 이는 확장 ASCII로 수행 한 것과 달리 각 코드 포인트가 실제로 문자를 나타낼 수 있음을 의미합니다. 즉, 문자 세트 / 코드 페이지 /에 따라 코드 포인트가 다른 문자로 매핑됩니다. 부호화.

글꼴은 코드 포인트에 매핑되고 문자를 시각적으로 나타내는 글리프입니다. 글꼴의 내용은 원래 포함 된 언어에 따라 다릅니다. 문자표 를 사용 하여 글꼴에 포함 된 글리프를 확인할 수 있습니다 .

유니 코드 글꼴이 모든 코드 포인트를 다룰 필요는 없으며, 사용하려는 위치를 확인해야합니다. 예를 들어 Windows 7의 경우 문자표를 실행 하여 Calibri에서 문자를 본 다음 Ebrima, Meiryo 및 Raavi와 비교합니다. 각기 다른 지역에 맞게 조정 되었기 때문에 그것들은 크게 다릅니다.

유니 코드 글꼴 및 Windows-1252 문자 집합과 관련하여 Windows는 매핑 테이블을 사용하여 Windows-1252 문자의 일부 문자가있는 "Best Fit"시나리오의 경우 ISO 8859-1과 일치하지 않는 Windows-1252를 유니 코드로 변환합니다. 설정이 표시되지 않을 수 있습니다.


5

문자 세트

문자 집합은 숫자가 할당 된 문자 모음입니다.

잘 알려진 문자 집합은 ASCII입니다. 이것은 0에서 127까지 128 개의 문자 세트입니다.이 숫자는 모두 7 비트로 표현 될 수 있으므로 7 비트 문자 세트입니다.

다른 모든 문자 세트는 아니지만 대부분 동일한 번호의 ASCII 세트를 포함합니다. ASCII가 아닌 문자 세트의 예로는 EBCDIC이 있습니다. ASCII에서 특정 위치에 다른 문자가있는 유럽 변형 (예 : £ 포함)도있었습니다.

인코딩

백만자를 초과하는 유니 코드와 같은 큰 문자 집합은 문자에 할당 된 넓은 범위의 숫자를 수용하기 위해 문자 당 3 또는 4 바이트가 필요합니다. 대신, 그 숫자를 1, 2, 3 또는 그 이상의 바이트로 "인코딩"할 수있는 시스템을 사용합니다. UTF-8 인코딩 체계를 사용하면 ASCII 문자와 동일한 문자가 ASCII에서와 동일한 바이트 값을 가진 단일 바이트로 인코딩됩니다.

위의 인코딩은 파일에 텍스트를 저장할 때 사용됩니다.

서체

서체는 문자 집합에 대한 시각적 표현 (예 : 모양)의 특정 디자인입니다. 모양을 글리프라고합니다. 서체에는 한 문자에 여러 개의 글리프가있을 수 있습니다 ( "a"고려). 합자 (예 : "ff"또는 "fi")라는 문자 쌍에 대한 글리프가있을 수 있습니다. 서체에서 글리프가 디자인 된 문자 세트는 잘 알려진 문자 세트의 문자 세트와 종종 다릅니다 (서체에는 일반적으로 ASCII 제어 문자의 글리프가 포함되지 않음).

폰트

컴퓨터와 관련하여 글꼴은 일부 번호 체계 (주로 알려진 문자 세트의 번호와 동일하지 않음)에 따라 정렬 된 글리프가 포함 된 파일을 의미합니다. 역사적으로 글꼴의 특정 크기 (픽셀 또는 포인트 단위)를 나타내는 비트 맵 글꼴이있었습니다. 현재 대부분의 글꼴은 수학 곡선을 사용하여 글리프를 설명하므로 모든 크기의 서체를 나타내도록 크기를 조정할 수 있습니다.

함께 모아서

텍스트 파일을 표시 할 때 컴퓨터는 파일에 사용 된 인코딩을 알려 주어야합니다. 그런 다음 다른 번호 매기기 (예 : 유니 코드의 16 비트 변형)를 사용하여 메모리의 텍스트를 표시 한 다음 글꼴 파일의 정보를 사용하여 내부 표현을 글꼴 파일에 사용 된 번호 매기기 (인코딩)에 매핑합니다.


3

글꼴이 모든 문자 인코딩을 지원해야합니까?

아니요. 실제로 실제로 있는지 모르겠습니다.
그것은 그들이 상상할 수있는 모든 캐릭터를 "그 안에"가지고 있다는 것을 의미합니다. 서구 문화 인코딩 (라틴어)을 지원하는 데 사용되는 가장 일반적인 글꼴입니다.

아니면 문자 인코딩이 모든 글꼴을 지원해야합니까?

문자 인코딩은 어떤 방식 으로든 "지원"하지 않으므로 실제로는 잘못된 방법입니다.

유니 코드 글꼴은 무엇을 의미합니까? 유니 코드 만 지원하는 글꼴입니까, Windows-1252와 같은 글꼴을 지원하지 않습니까?

유니 코드 는 표준 (또는 적어도 하나가 되려고 노력 중)이며 많은 문자를 지원하므로 많은 인코딩을 자체 하위 집합으로 만듭니다. Windows 1252 또는 CP1252는 라틴 문자와 일부 중앙 유럽 문자가 포함 된 인코딩입니다. 이들 중 대부분은 유니 코드로도 "커버"됩니다. 거의 모든 유니 코드 글꼴, CP1252도 포함됩니다.


1
유니 코드는 표준 ISO 10646의 표준입니다.
MSalters
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.