1 클래스 텍스트 분류는 어떻게합니까?


14

텍스트 분류 문제를 해결해야합니다. 웹 크롤러는 특정 도메인의 웹 페이지를 크롤링하며 각 웹 페이지에 대해 특정 클래스에만 속하는지 여부를 확인하고 싶습니다. 즉,이 클래스를 Positive 호출하면 크롤링 된 각 웹 페이지는 Positive 클래스 또는 Non-Positive 클래스에 속합니다 .

Positive 클래스에 대한 대규모 교육용 웹 페이지가 이미 있습니다 . 그러나 가능한 대표적 클래스에 대한 교육 세트를 만드는 방법 은 무엇입니까? 나는 기본적으로 그 클래스에 대해 모든 것을 사용할 수 있음을 의미합니다. Positive 클래스에 속하지 않는 임의의 페이지를 수집 할 수 있습니까 ? 텍스트 분류 알고리즘의 성능 (Naive Bayes 알고리즘 사용을 선호 함)은 Non-Positive 클래스에 대해 선택한 웹 페이지에 따라 크게 달라집니다 .

그럼 어떻게해야합니까? 누군가 나에게 조언을 해 줄 수 있습니까? 대단히 감사합니다!


두 개의 클래스가 있기 때문에 실제로는 두 개의 클래스 클러스터링입니다. 한 클래스의 경우 하나의 클래스 만 있으며 관측치가 데이터에 얼마나 적합한 지 평가하는 데 관심이 있습니다 (즉, 특이 치를 탐지).

이 학습 문제에는 PU 학습이라는 이름이 있습니다. 긍정적 인 예가 이해하기 쉽고 자연 스럽지만 부정적인 것이 기본적으로 모든 것 (구하기 어려운) 인 경우 자연스럽게 사용됩니다. 원칙적으로 표준 2 등급 분류기를 배우고 싶지만 다른 기준을 가지고 있습니다-PR 곡선 아래 면적을 최적화하십시오. 이 소프트웨어 패키지를 사용하면 분류기 code.google.com/p/sofia-ml
Vladislavs Dovgalecs

답변:


5

스파이 EM 알고리즘은 정확히이 문제를 해결합니다.

S-EM은 일련의 긍정적이고 레이블이없는 예 (음의 예는 아님)에서 학습하는 텍스트 학습 또는 분류 시스템입니다. "스파이"기술, 순진한 베이 즈 및 EM 알고리즘을 기반으로합니다.

기본 아이디어는 긍정적 인 세트와 무작위로 크롤링 된 문서를 결합하는 것입니다. 처음에는 크롤링 된 모든 문서를 음수 클래스로 취급하고 해당 세트에서 순진 베이 분류기를 학습합니다. 이제 크롤링 된 문서 중 일부는 실제로 양수이므로 가장 낮은 점수의 양수 문서보다 점수가 높은 문서는 보수적으로 레이블을 다시 지정할 수 있습니다. 그런 다음 안정화 될 때까지이 프로세스를 반복하십시오.


정말 고마워요. 내가 살펴볼 게
pemistahl

6

다음은 1 클래스 분류에 대한 좋은 논문입니다.

  • 세금, DM : 일류 분류-반대 사례가없는 경우 개념 학습 , 박사 학위 논문, Technische Universiteit Delft, 2001. ( pdf )

이 논문은 데이터를 분리하는 하이퍼 플레인이 아니라 데이터 주변의 최소 하이퍼 스피어를 찾는 단일 클래스 지원 벡터 시스템 인 SVDD (Support Vector Data Description) 방법을 소개합니다.

이 논문은 또한 다른 단일 클래스 분류기를 검토합니다.


@nub 사이트에 오신 것을 환영합니다. 우리는 통계 정보의 영구 저장소를 구축하기를 희망하며, 따라서 linkrot의 가능성에 대해 걱정합니다. 링크가 끊어 질 경우를 대비 한 정보를 요약 해 주시겠습니까?
gung-복직 모니카

요약 해 주셔서 감사합니다. 계정을 등록하고 병합하십시오 ( 도움말 센터내 계정 섹션 에서 방법을 찾을 수 있음 ). 그러면 자신의 게시물을 편집하고 주석을 달 수 있습니다.
gung-Monica Monica 복원

@gung 환영합니다. StackOverflow 자체에 "Yearling"배지를받은 것을 기쁘게 생각합니다. 이제 모든 곳에서 댓글을 달 수 있습니다.
JosiahYoder-deactive 제외 ..

@JosiahYoder, 여기 OP 인 경우 계정을 병합하십시오. 도움말 센터내 계정 섹션 에서 방법을 찾을 수 있습니다 .
gung-Monica Monica 복원

나는 OP가 아닙니다. 이 질문에서 발생한 임의의 SO 사용자.
JosiahYoder-deactive를 제외하고 ..

1

좋은 훈련을 위해서는 개인별 확률에 대한 추정치를 제공하는 데이터가 필요합니다. 모든 분류 문제에는 최소한 두 개의 수업이 포함됩니다. 귀하의 경우 두 번째 수업은 긍정적 인 수업에 속하지 않은 사람입니다. Bayes 또는 다른 좋은 방법을 사용하여 올바른 결정 경계를 형성하는 것은 클래스에서 무작위로 선택한 많은 훈련 데이터를 사용하는 것이 가장 좋습니다. 무작위로 선택하지 않으면 클래스 조건부 밀도 / 분포의 모양을 실제로 나타내지 않는 샘플을 얻을 수 있으며 의사 결정 경계를 잘못 선택할 수 있습니다.


1
당신 말이 맞아요, 이것이 바로 나를 귀찮게하는 것입니다. 좋은 결정 경계로 이어지는 비 양성 샘플 의 샘플을 선택하는 방법은 무엇입니까? 무작위 선택을하는 것이 최선입니까?
pemistahl

0

마이클에 동의합니다.

무작위 선택에 대한 귀하의 질문과 관련하여; 예 : 보완적인 '양성'세트에서 무작위로 선택해야합니다. '긍정적'이 '순수성'으로 완전히 정의되지 않았을 수있는 혼동이있는 경우 해당 문구를 사용할 수 있다면, 긍정적으로 정의 된 일치하는 정의를 시도해 볼 수 있습니다. '긍정적'의 정의에서 잠재적으로 약간의 오염을 일으키는 변수에 대한 통제. 이 경우 '비 양성'측의 동일한 변수에서도 일치해야합니다.


0

관심있는 기사는 다음과 같습니다.

"가장 가까운 축소 된 중심 분류 : 확장 된 크기의 텍스트에 대한 공개 된 저작자 표시를위한 새로운 방법", Schaalje, Fields, Roper 및 Snow. 문학 및 언어 컴퓨팅, vol. 26, No. 1, 2011.

이 방법은 텍스트를 작성자 집합에 부여하는 방법을 사용하여 실제 작성자가 후보 세트에 없을 가능성을 사용하도록 확장합니다. NSC 방법을 사용하지 않더라도 논문의 아이디어는 진행 방법을 생각하는 데 유용 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.