텍스트 분류와 주제 모델의 차이점은 무엇입니까?


20

기계 학습에서 클러스터링과 분류의 차이점을 알고 있지만 문서의 텍스트 분류와 주제 모델링의 차이점을 이해하지 못합니다. 문서를 통해 주제 모델링을 사용하여 주제를 식별 할 수 있습니까? 분류 방법을 사용하여 이러한 문서 내의 텍스트를 분류 할 수 있습니까?

답변:


28

텍스트 분류

나는 당신에게 많은 문서를 주며, 각각에는 레이블이 붙어 있습니다. 문서의 내용에 단어를 기반으로 이러한 레이블이 제공되었다고 생각하는 이유를 배우십시오. 그런 다음 새 문서를주고 각 문서의 레이블이 무엇인지 생각하십시오. 레이블은 당신에게 꼭 필요한 것은 아닙니다.

주제 모델링

라벨이없는 많은 문서를 제공합니다. 각 문서가 "약"인 주제를 식별하여 문서에 단어가 포함 된 이유를 설명하도록 요청합니다. 당신은 나에게 각 문서에 얼마나 많은 것이 있는지 말해 주어 주제를 말하고, 어떤 주제가 무엇을 의미하는지 결정합니다.

"하나의 주제를 식별"또는 "텍스트를 분류"하여 나에게 무엇을 분명히해야합니다.


10

그러나 문서의 텍스트 분류와 주제 모델의 차이점이 무엇인지 모르겠습니다.

Text Classification는지도 학습의 한 형태이므로 가능한 클래스 세트는 미리 알려지고 정의 되며 변경되지 않습니다.

Topic Modeling가능한 주제 세트를 알 수 있도록 (클러스터링과 유사) 자율 학습의 한 형태이다 연역적 . 주제 모델 생성의 일부로 정의됩니다. LDA와 같은 비 결정적 알고리즘을 사용하면 알고리즘을 실행할 때마다 다른 주제를 얻을 수 있습니다.

Text classification종종 상호 배타적 인 수업이 필요합니다. 버킷으로 생각하십시오.
그러나 반드시 필요한 것은 아닙니다. 올바른 종류의 레이블이 지정된 입력 데이터가 주어지면 일련의 비 배타적 인 이진 분류기를 설정할 수 있습니다.

Topic modeling일반적으로 상호 배타적이지 않습니다. 동일한 문서의 확률 분포가 여러 주제에 분산되어있을 수 있습니다. 또한 계층 적 주제 모델링 방법도 있습니다.

또한 문서의 주제 모델을 사용하여 나중에 하나의 주제를 식별 할 수 있습니까? 분류를 사용하여이 문서 내의 텍스트를 분류 할 수 있습니까?

주제 모델링 알고리즘으로 하나의 주제에 할당 된 모든 문서를 가져 와서 해당 분류에 적용 할 수 있는지 묻는다면 가능합니다.

확실하지는 않지만 확실합니다. 최소한 컬렉션에 문서를 포함 할 주제 확률 분포에 대한 임계 값을 선택해야합니다 (일반적으로 0.05-0.1).

사용 사례를 자세히 설명 할 수 있습니까?

그건 그렇고, Java 용 MALLET 라이브러리를 사용하여 주제 모델링에 대한 훌륭한 자습서가 있습니다. 주제 모델링 및 MALLET 시작하기


4

주제 모델은 일반적으로 감독되지 않습니다 . "감독 대상 주제 모델"도 있습니다. 그러나 그들은 심지어 수업 내에서 주제 를 모델링하려고 시도합니다 .

예를 들어 "축구"라는 클래스가있을 수 있지만이 클래스에는 특정 경기 나 팀과 관련된 주제가있을 수 있습니다.

주제의 도전은 시간이 지남에 따라 변화한다는 것입니다. 위의 일치 예를 고려하십시오. 이러한 주제는 다시 나타날 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.