답은 매우 간단합니다. TF-IDF는 일부 감독 방법과 결합 할 때 단순한 용어 빈도보다 더 나은 결과를 얻을 수 있습니다.
표준 예제는 문서 간의 유사성 측정으로 코사인 유사성을 사용하는 것입니다. 문서의 TF-IDF 벡터 표현 사이의 각도의 코사인을 취하면 TF 단독보다 높은 정확도로 유사한 유사한 문서를 성공적으로 검색 할 수 있습니다.
이는 IDF가 일반적인 단어의 가중치를 줄이고 문서에서 드문 단어를 강조하기 때문입니다. 대부분의 뉴스 기사는 타조에 관한 것이 아니므로 "타조"를 포함하는 뉴스 기사는 드문 경우이므로 유사한 문서를 찾으려고 할 때이를 알고 싶습니다.
그러나 표준 감독 ML 기술을 사용하여 텍스트를 분류하는 경우 왜 코퍼스의 문서 빈도에 따라 가중치를 낮추어야합니까? 학습자 자신이 각 단어 / 단어 조합에 할당 할 중요성을 결정하지 않습니까?
엑스와이엑스와이와이), 그리고 우리 자신과 가난하고 과로 한 컴퓨터에서 작업을 훨씬 쉽게 만들었습니다! 나는 이것이 필드의 평가되지 않은 구성 요소라고 생각합니다. 사람들은 도메인에 독립적이기 때문에 알고리즘을 연구하고 고려하는 데 많은 시간을 소비하지만 데이터와 해결하려는 문제에 대해 더 많이 알면 경로를 제안 할 수 있습니다 개선 된 데이터 수집 또는 데이터 표현을 통해 작업이 훨씬 쉬워지고 화려한 정교함이 필요하지 않습니다.
편의를 위해 많은 리소스를 여기 에서 찾을 수 있습니다 .
K. Sparck Jones. "용어 특이성 및 검색에서의 적용에 대한 통계적 해석". Journal of Documentation, 28 (1). 1972.
G. Salton과 Edward Fox, Wu Harry Wu. "확장 부울 정보 검색". ACM의 커뮤니케이션, 26 (11). 1983.
G. Salton과 MJ McGill. "현대 정보 검색 소개". 1983
G. Salton과 C. Buckley. "자동 텍스트 검색에서 용어 가중치 적용". 정보 처리 및 관리, 24 (5). 1988.
H. Wu 및 R. Luk 및 K. Wong 및 K. Kwok. "TF-IDF 기간 가중치를 관련성 결정으로 해석" 정보 시스템에 관한 ACM 거래, 26 (3). 2008.