답변:
텍스트 분류
나는 당신에게 많은 문서를 주며, 각각에는 레이블이 붙어 있습니다. 문서의 내용에 단어를 기반으로 이러한 레이블이 제공되었다고 생각하는 이유를 배우십시오. 그런 다음 새 문서를주고 각 문서의 레이블이 무엇인지 생각하십시오. 레이블은 당신에게 꼭 필요한 것은 아닙니다.
주제 모델링
라벨이없는 많은 문서를 제공합니다. 각 문서가 "약"인 주제를 식별하여 문서에 단어가 포함 된 이유를 설명하도록 요청합니다. 당신은 나에게 각 문서에 얼마나 많은 것이 있는지 말해 주어 주제를 말하고, 어떤 주제가 무엇을 의미하는지 결정합니다.
"하나의 주제를 식별"또는 "텍스트를 분류"하여 나에게 무엇을 분명히해야합니다.
그러나 문서의 텍스트 분류와 주제 모델의 차이점이 무엇인지 모르겠습니다.
Text Classification
는지도 학습의 한 형태이므로 가능한 클래스 세트는 미리 알려지고 정의 되며 변경되지 않습니다.
Topic Modeling
가능한 주제 세트를 알 수 있도록 (클러스터링과 유사) 자율 학습의 한 형태이다 연역적 . 주제 모델 생성의 일부로 정의됩니다. LDA와 같은 비 결정적 알고리즘을 사용하면 알고리즘을 실행할 때마다 다른 주제를 얻을 수 있습니다.
Text classification
종종 상호 배타적 인 수업이 필요합니다. 버킷으로 생각하십시오.
그러나 반드시 필요한 것은 아닙니다. 올바른 종류의 레이블이 지정된 입력 데이터가 주어지면 일련의 비 배타적 인 이진 분류기를 설정할 수 있습니다.
Topic modeling
일반적으로 상호 배타적이지 않습니다. 동일한 문서의 확률 분포가 여러 주제에 분산되어있을 수 있습니다. 또한 계층 적 주제 모델링 방법도 있습니다.
또한 문서의 주제 모델을 사용하여 나중에 하나의 주제를 식별 할 수 있습니까? 분류를 사용하여이 문서 내의 텍스트를 분류 할 수 있습니까?
주제 모델링 알고리즘으로 하나의 주제에 할당 된 모든 문서를 가져 와서 해당 분류에 적용 할 수 있는지 묻는다면 가능합니다.
확실하지는 않지만 확실합니다. 최소한 컬렉션에 문서를 포함 할 주제 확률 분포에 대한 임계 값을 선택해야합니다 (일반적으로 0.05-0.1).
사용 사례를 자세히 설명 할 수 있습니까?
그건 그렇고, Java 용 MALLET 라이브러리를 사용하여 주제 모델링에 대한 훌륭한 자습서가 있습니다. 주제 모델링 및 MALLET 시작하기