내가 본 것에서, (2 차) Kneser-Ney 평활화 공식은 어떤 식 으로든 또는 다른 식으로 주어집니다.
정규화 인자 로 주어
단어 w_n 의 연속 확률
여기서 는 컨텍스트에서 가 발견 된 컨텍스트의 수 또는 주어진 단어 w 앞에 나오는 별개의 단어 입니다 . 내가 이해 한 바에 따르면, 공식은 재귀 적으로 적용될 수 있습니다.
이제 이것은 다른 n-gram 길이에 대해 알 수없는 컨텍스트에서 알려진 단어를 잘 처리하지만 사전에 설명되지 않은 단어가있을 때 어떻게 해야하는지 설명하지 않습니다. 유니 그램의 재귀 단계에서 P_ {cont} (/) = P ^ 0_ {KN} (/) = \ frac {1} {V} 이라는 이 예제 를 따라 해 보았습니다 . 이 문서는 Chen과 Goodman을 인용하여 위 공식을 P ^ 1_ {KN} (w) = P_ {cont} (w) 로 정당화합니다 .
그래도 알 수없는 단어 w = \ text {unknown}가 있는 경우 어떻게 작동하는지 알 수 없습니다 . 이러한 경우에, , 알 수없는 단어는 훈련 세트와 관련하여 아무 것도 계속하지 않기 때문입니다. 마찬가지로 n-gram의 개수는 됩니다.
또한, 항은 알 수없는 단어의 순서 (예 : OOD 단어의 트라이 그램)가 발생하면 0이 될 수 있습니다.
내가 무엇을 놓치고 있습니까?