TF-IDF 로그에서 로그 사용 이해

나는 읽고 있었다:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

그러나 수식이 왜 원래대로 구성되었는지 정확히 이해할 수없는 것 같습니다.

내가 이해하는 것 :

iDF는 어떤 수준에서 용어 S가 각 문서에 나타나는 빈도를 측정해야하며, 용어가 더 자주 나타날수록 가치가 감소합니다.

그 관점에서

나는 디 에프 (에스) = \frac{# 문서}{# S가 포함 된 문서 수}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

또한 용어 빈도는 다음과 같이 올바르게 설명 될 수 있습니다.

티 에프 (에스, 디) = \frac{# 문서 D에서 S의 발생}{# 문서 D에서 문자열 Q에 대한 최대 발생 수}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

그럼 측정

나는 디 에프 (에스) \times 티 에프 (에스, 디)

$iDF(S) \times tf(S,D)$

어떤 식 으로든 주어진 문서에서 용어가 얼마나 자주 나타나는지, 그리고 해당 용어가 문서 세트에서 얼마나 독특한 지에 비례합니다.

내가 이해하지 못하는 것

그러나 주어진 공식은 그것을

(로그 (나는 디 에프 (에스))) (\frac{1}{2} + 로그 (\frac{1}{2} 티 에프 (에스, 디)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

정의에 설명 된 로그의 필요성을 이해하고 싶습니다. 왜, 그들은 거기에 있습니까? 그들은 어떤 측면을 강조합니까?

— 개구리
소스

강조된 측면은 용어 또는 문서의 관련성이 용어 (또는 문서) 빈도에 비례하여 증가하지 않는다는 것입니다. 따라서 서브 리니어 함수를 사용하면이 효과를 버릴 수 있습니다. 이를 위해 매우 크거나 아주 작은 값 (예 : 매우 드문 단어)의 영향도 확장됩니다. 최종적으로 대부분의 사람으로 직관적 인식 스코어링 함수가 될 다소 상이한 확률 것 대수를 이용하여 첨가제 독립적 에서 용어 더처럼하는 입니다. $P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Wikipedia 기사에 링크 된 것처럼 TF-IDF 의 정당성 은 여전히 잘 확립되어 있지 않습니다. 우리가 현실 세계로 옮기고 자하는 엄격한 개념이 아니라 엄격하게 만들고자하는 것은 휴리스틱입니다. @ Anony-Mousse가이 문제에 대해 아주 잘 읽은 것처럼 Robertson의 이해하는 역 문서 빈도 이해 : IDF에 대한 이론적 논증 . 전체 프레임 워크에 대한 광범위한 개요를 제공하고 TF-IDF 방법론을 검색어의 관련 가중치에 적용하려고 시도합니다.

— usεr11852
소스

TF-IDF의 일부 정당성은 2004 년 Fang, Hui et al ( pdf )의 "정보 검색 휴리스틱에 대한 공식 연구"에서 찾을 수있다 .

— Alexey Grigorev

나는 이것이 TF-IDF 정당성에 대한 더 나은 참조라고 생각한다 : Robertson, S. (2004). "역 문서 빈도 이해 : IDF에 대한 이론적 논증". Journal of Documentation 60 (5) : 503–520.

— 종료-익명-무스

여러분의 의견에 감사드립니다 (그리고 정정을 해준 Alexey에게 감사드립니다 \log. 둘 다 +1 나는 Robertson 논문을보고 그것을 추가하는 것을 고려했다; 정말 잘 읽습니다. 본체에 추가하겠습니다.

— usεr11852

@ Anony - 무스 (PDF)

— 마 고양이

"문서 D의 문자열 Q에 대해 최대 발생 횟수"가 왜 대신 사용되는지 알고 싶습니다 number of occurrences for all strings in document D. 모든 단어의 개수 대신 가장 일반적인 단어의 개수를 원하는 이유는 무엇입니까?

— Xeoncross