클래스 중 하나가 다른 클래스 중 하나에 의해 정의되지 않은 분류 문제에 어떻게 접근합니까?


9

세 가지 수업에 관심이 있다고 가정 해 봅시다. c1, c2, c3. 그러나 내 데이터 세트에는 실제로 몇 가지 실제 클래스가 더 있습니다.(cj)j=4n.

확실한 대답은 새로운 클래스를 정의하는 것입니다 c^4 그것은 모든 클래스를 참조 cj, j>3 그러나 나는 샘플이 있기 때문에 이것이 좋은 생각이 아니라고 생각합니다. c^4 희귀하고 서로 비슷하지 않습니다.

내가 말하려는 것을 시각화하려면 다음 두 가지 가변 공간과 클래스가 있다고 가정하십시오. c1, c2, c3, c^4=j=4ncj빨간색, 틸트, 녹색 및 검은 색으로 각각 표시됩니다. 이것이 내 데이터가 어떻게 보일지 의심하는 방법입니다.

여기에 이미지 설명을 입력하십시오

이 문제에 접근하는 표준 방법이 있습니까? 가장 효율적인 분류기는 무엇이며 왜 그렇습니까?



1
라벨이없는 포지티브 모델 을 탐색 할 수 있습니다 . 그것은 대부분의 PU 문제와 같이 바이너리가 아닌 멀티 클래스라는 점을 제외하면 비슷한 문제처럼 보입니다.
Ricardo Cruz

답변:


4

나는 아이디어를 사용하여 2 단계 접근법을 사용할 것입니다. c4^ 당신이 언급 한 수업.

첫 번째 단계에서는 이진 분류기 (전체 데이터 집합에 대해 훈련 됨)를 사용하여 샘플이 클래스에 속하는지 확인합니다. c4^(즉, 비 관심 클래스에서). 이를 위해, "관심있는"클래스에 속하는 샘플이 나머지와 훨씬 다른 경우 이상치 검출 방법을 살펴볼 수도 있습니다 .

결과가 음수이면, 다음 단계로 넘어가십시오. 새로운 분류기는 클래스에 속하는 샘플에 대해서만 훈련됩니다. c1,c2,c3 그 예측을 최종 예측으로 사용하십시오.

간단한 클러스터링 접근법을 첫 단계로 사용한다고 생각합니다 (예 : 초기 중심 값으로 평균 중심 값을 사용 하는 4- 클러스터링 k- 평균)centj=xiD:yi=jxixiD:yi=j1 각각 c1,c2,c3,c4^), 여전히 유용합니다.


클래스 중첩이 많지 않으면 Bogas 제안이 좋습니다. 그렇지 않으면 다중 레이블 모델로 이동하십시오.
Ricardo Cruz

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.