나는 읽고 있었다:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
그러나 수식이 왜 원래대로 구성되었는지 정확히 이해할 수없는 것 같습니다.
내가 이해하는 것 :
iDF는 어떤 수준에서 용어 S가 각 문서에 나타나는 빈도를 측정해야하며, 용어가 더 자주 나타날수록 가치가 감소합니다.
그 관점에서
또한 용어 빈도는 다음과 같이 올바르게 설명 될 수 있습니다.
그럼 측정
어떤 식 으로든 주어진 문서에서 용어가 얼마나 자주 나타나는지, 그리고 해당 용어가 문서 세트에서 얼마나 독특한 지에 비례합니다.
내가 이해하지 못하는 것
그러나 주어진 공식은 그것을
정의에 설명 된 로그의 필요성을 이해하고 싶습니다. 왜, 그들은 거기에 있습니까? 그들은 어떤 측면을 강조합니까?