양수 및 레이블이없는 데이터 만 사용하여 이진 분류기를 만듭니다.

11

나는 2 개의 데이터 세트를 가지고 있는데, 하나는 탐지하고자하는 긍정적 인 인스턴스가 있고 다른 하나는 레이블이없는 인스턴스가 있습니다. 어떤 방법을 사용할 수 있습니까?

예를 들어, 구조화 된 이메일 특성 몇 가지를 기반으로 스팸 이메일 탐지를 이해하려고한다고 가정합니다. 스팸 이메일 1 개의 데이터 세트와 스팸 여부를 모르는 100000 개의 이메일 데이터 세트가 있습니다.

레이블이없는 데이터를 수동으로 레이블링하지 않고이 문제를 어떻게 해결할 수 있습니까?

레이블이없는 데이터에 스팸 비율에 대한 추가 정보가있는 경우 어떻게해야합니까 (즉, 레이블이없는 100000 개의 이메일 중 20-40 %가 스팸이라고 추정하는 경우)?

classification semi-supervised-learning

— nassimhddd
소스

1

게시물에는 반 감독 및 학습 태그가 추가되어야합니다. 이 태그는 여전히 존재하지 않으며 현재 만들 수 없습니다.

— DaL

@DanLevin 그래, [tag : semi-supervised-learning]이 합리적입니다. 추가 :) 나는 pu-learning 부분에 대해 잘 모르겠습니다 (거의 알지 못합니다). 다른 누군가가 그것을 할 수 있습니다!

— Dawny33

1

PU- 러닝은 반지도 학습의 특정 사례입니다. 이 질문이 PU (라벨 된 데이터 세트는 단지 긍정적 인 것) 인 경우가 덜 일반적이고 (Google의 7K 결과), 반 관리 (Google의 298K 결과)됩니다. 주제가 아카데미 (예 : cs.uic.edu/~liub/NSF/PSC-IIS-0307239.html )에 대해 논의되는 동안 이 질문이이 태그와 함께 오랫동안있을 수 있습니다.

— DaL

7

레이블이 지정되지 않은 데이터에 레이블이 지정된 데이터 세트와 다소 비슷한 클러스터링을 구축하려고 시도합니다. 이론적 근거는 다음과 같다.

문서를 나타내는 기능 벡터가 있습니다
해당 기능 벡터를 기반으로 퍼지, 거친 또는 클래스 기반 클러스터링 방법을 사용하여 다양한 클러스터링을 수행 할 수 있습니다.
긍정적 인 예가 어떤 것인지 알면 긍정적 인 클러스터와 클러스터의 전반적인 유사성을 신속하게 평가할 수 있습니다.
실제로 두 개의 클러스터 만 있어야한다는 것을 알고 있으므로 위의 두 메트릭이 만족도에 더 가깝고 가깝도록 클러스터링 방법에서 하이퍼 파라미터를 조정할 수 있습니다
두 군집을 사용하면 레이블이 지정된 데이터 세트의 근사치가 될 수 있으며 실제로 모델을 훈련시키는 은색 표준 모음으로 사용할 수 있습니다.

클러스터링 알고리즘을 구체적으로 찾고 있다면 개인적으로 좋아하는 몇 가지 시나리오는 FLAME 과 tsne 입니다. 또는 파이썬에서 멋진 gensim 라이브러리를 보면 원하는 클러스터링을 향한 먼 길을 얻을 수 있습니다.

도움이되고 이해하기를 바랍니다. 궁금한 점이 있으면 의견을 남겨주십시오.

— 인디 코
소스

답변 주셔서 감사합니다. 내가 올바르게 이해하고 있습니까 : 시작점은 2 개의 데이터 세트를 병합하는 것입니까?

— nassimhddd

@ cafe876 그것은 확실히 시작하는 한 가지 방법이며 기본적으로 원본과 거의 비슷한 클러스터링을 다시 만들려고합니다.

— indico

3

귀하의 문제는 PU 학습 의 프레임 워크에 속합니다 (긍정적 인 것, 많은 레이블이 없음).

또한 세미 감독 학습 의 더 일반적인 프레임 워크에 가깝습니다 (긍정 및 부정은 거의없고 레이블이없는 것이 많음).

현장에서 찾아 볼 수있는 많은 설문지가 있습니다.

귀하의 경우와 마찬가지로 스팸에서도 테스트 된이 분야의 고전적인 방법은 공동 훈련입니다 . 공동 훈련에서는 두 개의 독립적 인 학습자 (예 : 메일 내용을 기반으로하는 하나와 발송 체계를 기반으로하는 하나)를 구축합니다. 하나의 결과는 다른 하나를 훈련하고 그 반대도 마찬가지입니다.

— 달
소스

2

각 데이터 세트 (스팸 전용, 스팸 + 햄)에 대해 하나씩 2 개의 생성 모델을 학습하면 훈련 데이터의 동일한 확률 분포에서 데이터 포인트가 추출 될 확률이 제공됩니다. 교육에 사용 된 교육 데이터에서 문서가 발생할 가능성이 가장 높은 모델을 기준으로 전자 메일을 스팸 또는 햄으로 할당합니다. 예시적인 생성 모델은 RBM, 자동 엔코더 (이 경우 가장 낮은 재구성 오류를 갖는 모델)입니다. 일부 훈련 데이터를 기반으로 데이터 포인트에 확률을 할당하는 일부 베이지안 생성 모델도있을 수 있습니다.

그러나 최선의 방법은 햄만 포함하는 두 번째 데이터 세트를 큐 레이트하는 데 시간이 걸리는 것입니다. 그러면 분류 정확도가 높아집니다. 스팸 대 햄 전자 메일의 비율이 낮다고 가정하면 너무 어렵지 않습니다. 시간이나 자원이 부족한 경우 Mechanical Turk를 사용할 수도 있습니다 (또는 인턴 또는 대학원생 또는 기타 저렴한 노동력).

— 시몬
소스

답변 주셔서 감사합니다. 차별적 모델로는 할 수없는 생성 모델이 할 수있는 좋은 예입니다.

— nassimhddd