텍스트 분류를위한 용어집 : 왜 TFIDF 대신 단어 빈도를 사용하지 않습니까?


24

텍스트 분류에 대한 일반적인 접근 방식은 분류기를 '단어 모음'에서 학습시키는 것입니다. 사용자는 텍스트를 분류하고 각 객체의 단어 빈도를 세고 그에 따라 트리밍 가능한 크기의 행렬을 유지하기위한 일종의 트리밍을 계산합니다.

종종 사용자는 TFIDF를 사용하여 기능 벡터를 구성하는 것을 봅니다. 다시 말해, 위에서 언급 한 텍스트 빈도는 말뭉치의 단어 빈도에 의해 가중됩니다. 예를 들어, 인간 분석가에게 표시하기 위해 TFIDF가 주어진 문서의 '가장 구별되는'단어를 선택하는 데 유용한 이유를 알 수 있습니다. 그러나 표준 감독 ML 기술을 사용하여 텍스트를 분류하는 경우 왜 코퍼스의 문서 빈도에 따라 가중치를 낮추어야합니까? 학습자 자신이 각 단어 / 단어 조합에 할당 할 중요성을 결정하지 않습니까? IDF가 어떤 가치를 더하는지에 대한 귀하의 의견에 감사드립니다.

답변:


29

답은 매우 간단합니다. TF-IDF는 일부 감독 방법과 결합 할 때 단순한 용어 빈도보다 더 나은 결과를 얻을 수 있습니다.

표준 예제는 문서 간의 유사성 측정으로 코사인 유사성을 사용하는 것입니다. 문서의 TF-IDF 벡터 표현 사이의 각도의 코사인을 취하면 TF 단독보다 높은 정확도로 유사한 유사한 문서를 성공적으로 검색 할 수 있습니다.

이는 IDF가 일반적인 단어의 가중치를 줄이고 문서에서 드문 단어를 강조하기 때문입니다. 대부분의 뉴스 기사는 타조에 관한 것이 아니므로 "타조"를 포함하는 뉴스 기사는 드문 경우이므로 유사한 문서를 찾으려고 할 때이를 알고 싶습니다.

그러나 표준 감독 ML 기술을 사용하여 텍스트를 분류하는 경우 왜 코퍼스의 문서 빈도에 따라 가중치를 낮추어야합니까? 학습자 자신이 각 단어 / 단어 조합에 할당 할 중요성을 결정하지 않습니까?

엑스와이엑스와이와이), 그리고 우리 자신과 가난하고 과로 한 컴퓨터에서 작업을 훨씬 쉽게 만들었습니다! 나는 이것이 필드의 평가되지 않은 구성 요소라고 생각합니다. 사람들은 도메인에 독립적이기 때문에 알고리즘을 연구하고 고려하는 데 많은 시간을 소비하지만 데이터와 해결하려는 문제에 대해 더 많이 알면 경로를 제안 할 수 있습니다 개선 된 데이터 수집 또는 데이터 표현을 통해 작업이 훨씬 쉬워지고 화려한 정교함이 필요하지 않습니다.

편의를 위해 많은 리소스를 여기 에서 찾을 수 있습니다 .

  • K. Sparck Jones. "용어 특이성 및 검색에서의 적용에 대한 통계적 해석". Journal of Documentation, 28 (1). 1972.

  • G. Salton과 Edward Fox, Wu Harry Wu. "확장 부울 정보 검색". ACM의 커뮤니케이션, 26 (11). 1983.

  • G. Salton과 MJ McGill. "현대 정보 검색 소개". 1983

  • G. Salton과 C. Buckley. "자동 텍스트 검색에서 용어 가중치 적용". 정보 처리 및 관리, 24 (5). 1988.

  • H. Wu 및 R. Luk 및 K. Wong 및 K. Kwok. "TF-IDF 기간 가중치를 관련성 결정으로 해석" 정보 시스템에 관한 ACM 거래, 26 (3). 2008.


@ user777 메모 주셔서 감사합니다! 감사합니다. 나는 그 기사들을 살펴보고있다. TFIDF 대 TF 만 우선적으로 활용할 것으로 기대되는 일반적인 알고리즘 클래스가 있습니까?
shf8888

@ shf8888 더 나은 일반 클래스가 있는지 확실하지 않습니다. 있을 수있다! 내가 아는 한 NLP 작업을 수행하는 사람의 첫 번째 반사는 TF를 시도한 다음 TF-IDF를 기본 방법으로 시도하여보다 복잡한 모델로 진행하는 것입니다. 이러한 방식으로 점점 더 복잡한 모델을 사용하여 노력을 늘리기 위해 구매 한 성능의 양을 수량화 할 수 있습니다.
Sycorax는 Reinstate Monica가

매우 감사합니다! 글쎄, "임시적으로 TFIDF는 일부 알고리즘으로 TF보다 성능을 향상시킬 수 있습니다"(내 문장 한 문장 요약에 반대하지 않는 경우)는 내 관점에서 확실히 좋습니다. 참조 해 주셔서 감사합니다.
shf8888 2016 년

2

일반적인 경우 레이블이있는 문서보다 코퍼스에 더 많은 문서가있을 수 있습니다. 이는 전체 코퍼스를 사용할 때 IDF가 훨씬 정확하고 완벽하게 계산 될 수 있음을 의미합니다.

다음으로 지금까지 손에 넣을 수있는 모음이 모두 레이블이 있거나 레이블이있는 부분 집합이 "충분히 큰"경우를 고려하십시오. 이 경우 학습 알고리즘이 많이 배울 필요가 없으므로 TfIDF를 사용할 때 훈련에 필요한 반복 횟수가 더 적을 수 있습니다.

마지막으로 이와 동일한 경우 tf 만 제공하거나 tf와 idf를 별도로 제공하거나 tfidf도 포함 할 수 있습니다. 예를 들어 정교한 커널 함수를 사용할 때 더 나은 결과를 얻을 수 있다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.