5
단어 빈도 데이터의 분산을 측정하는 방법은 무엇입니까?
단어 개수로 구성된 벡터에서 분산 량을 어떻게 정량화 할 수 있습니까? 자주 발생하지 않는 여러 단어가 포함되어 있기 때문에 문서 A에 대해 높은 통계를 찾고 있는데, 자주 발생하는 단어 하나 (또는 몇 단어)가 포함되어 있기 때문에 문서 B에 대해서는 낮습니다. 보다 일반적으로 명목 데이터의 분산 또는 "확산"을 어떻게 측정합니까? 텍스트 …