TF-IDF 로그에서 로그 사용 이해


10

나는 읽고 있었다:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

그러나 수식이 왜 원래대로 구성되었는지 정확히 이해할 수없는 것 같습니다.

내가 이해하는 것 :

iDF는 어떤 수준에서 용어 S가 각 문서에 나타나는 빈도를 측정해야하며, 용어가 더 자주 나타날수록 가치가 감소합니다.

그 관점에서

나는에프(에스)=# 문서# S가 포함 된 문서 수

또한 용어 빈도는 다음과 같이 올바르게 설명 될 수 있습니다.

에프(에스,)=# 문서 D에서 S의 발생# 문서 D에서 문자열 Q에 대한 최대 발생 수

그럼 측정

나는에프(에스)×에프(에스,)

어떤 식 으로든 주어진 문서에서 용어가 얼마나 자주 나타나는지, 그리고 해당 용어가 문서 세트에서 얼마나 독특한 지에 비례합니다.

내가 이해하지 못하는 것

그러나 주어진 공식은 그것을

(로그(나는에프(에스)))(12+로그(12에프(에스,)))

정의에 설명 된 로그의 필요성을 이해하고 싶습니다. 왜, 그들은 거기에 있습니까? 그들은 어떤 측면을 강조합니까?

답변:


9

강조된 측면은 용어 또는 문서의 관련성이 용어 (또는 문서) 빈도에 비례하여 증가하지 않는다는 것입니다. 따라서 서브 리니어 함수를 사용하면이 효과를 버릴 수 있습니다. 이를 위해 매우 크거나 아주 작은 값 (예 : 매우 드문 단어)의 영향도 확장됩니다. 최종적으로 대부분의 사람으로 직관적 인식 스코어링 함수가 될 다소 상이한 확률 것 대수를 이용하여 첨가제 독립적 에서 용어 더처럼하는 입니다.로그 ( P ( A , B ) ) = 로그 ( P ( A ) ) + 로그 ( P ( B ) )(,)=()()로그((,))=로그(())+로그(())

Wikipedia 기사에 링크 된 것처럼 TF-IDF 의 정당성 은 여전히 ​​잘 확립되어 있지 않습니다. 우리가 현실 세계로 옮기고 자하는 엄격한 개념이 아니라 엄격하게 만들고자하는 것은 휴리스틱입니다. @ Anony-Mousse가이 문제에 대해 아주 잘 읽은 것처럼 Robertson의 이해하는 역 문서 빈도 이해 : IDF에 대한 이론적 논증 . 전체 프레임 워크에 대한 광범위한 개요를 제공하고 TF-IDF 방법론을 검색어의 관련 가중치에 적용하려고 시도합니다.


4
TF-IDF의 일부 정당성은 2004 년 Fang, Hui et al ( pdf )의 "정보 검색 휴리스틱에 대한 공식 연구"에서 찾을 수있다 .
Alexey Grigorev

3
나는 이것이 TF-IDF 정당성에 대한 더 나은 참조라고 생각한다 : Robertson, S. (2004). "역 문서 빈도 이해 : IDF에 대한 이론적 논증". Journal of Documentation 60 (5) : 503–520.
종료-익명-무스

여러분의 의견에 감사드립니다 (그리고 정정을 해준 Alexey에게 감사드립니다 \log. 둘 다 +1 나는 Robertson 논문을보고 그것을 추가하는 것을 고려했다; 정말 잘 읽습니다. 본체에 추가하겠습니다.
usεr11852

@ Anony - 무스 (PDF)
마 고양이

"문서 D의 문자열 Q에 대해 최대 발생 횟수"가 왜 대신 사용되는지 알고 싶습니다 number of occurrences for all strings in document D. 모든 단어의 개수 대신 가장 일반적인 단어의 개수를 원하는 이유는 무엇입니까?
Xeoncross
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.