여러 가지 이유로 단어 대신 문자 N- 그램이 사용됩니다.
1) 주어진 언어에 필요한 단어의 목록은 매우 큽니다. 빠르고 빠르거나 빠르거나 금식하고 금식과 금식 등 모든 다른 단어로 간주하면 아마도 100,000 일 것입니다. 80 개 언어의 경우 약 80 배 많은 단어가 필요하며 50MB 이상의 공간을 차지합니다.
2) 26 글자 알파벳의 문자 트리 그램 수는 26 ** 3 또는 약 17,000이며, 해당 알파벳을 사용하는 모든 언어를 포함하는 약 450,000의 쿼드 그램 (N = 4)입니다. 30-100 자의 더 큰 알파벳에서 N- 그램에 대해 비슷하지만 다소 큰 숫자입니다. Han 스크립트에서 4000 개 이상의 문자가 포함 된 CJK 언어의 경우 유니 그램 (N = 1)이면 충분합니다. 일부 유니 코드 스크립트의 경우 스크립트 당 하나의 언어 (그리스어, 아르메니아어) 만 있으므로 문자 조합이 필요하지 않습니다 (일명 nil-grams N = 0).
3) 단어를 사용하면 사전에없는 단어가 주어지면 정보가 전혀 없으며 문자 N 그램을 사용하면 해당 단어 내에 적어도 몇 가지 유용한 문자 조합이 있습니다.
CLD2는 라틴어, 키릴 자모 및 아랍어를 포함한 대부분의 유니 코드 스크립트 (알파벳)에 대해 쿼드 그램을 사용하고, CJK 스크립트에 대한 유니 그램, 다른 스크립트에 대해서는 닐 그램을 포함하며, 구별하기 위해 상당히 명확하고 일반적으로 완전한 완전한 단어와 단어 쌍을 포함합니다. 인도네시아어 및 말레이어와 같은 통계적으로 유사한 언어의 어려운 그룹 내에서. 문자 bigram 및 trigram은 소수의 언어를 구별하는 데 유용 할 수 있습니다 (약 8 개, https://docs.google.com/document/d/1NtErs467Ub4yklEfK0C9AYef06G_1_9NHL5dPuKIH7k/edit 참조))이지만 수십 개의 언어를 구별하는 데는 쓸모가 없습니다. 따라서 CLD2는 쿼드 그램을 사용하여 각 문자 조합과 해당 조합을 사용하는 가장 가능성이 높은 3 가지 언어를 연결합니다. 이를 통해 약 1.5MB의 테이블로 약 80 개의 언어를, 약 5MB의 테이블로 160 개의 언어를 더 자세하게 다룰 수 있습니다.