먼저 @Marc Claesen이 이미 설명했듯이, 반 감독 분류는 클래스가 실제로 다르다는 것을 알고있는 상황을 처리하는 기술 중 하나이지만 실제로 어떤 클래스가 속하는지 확실하지 않습니다.
그러나 "현실"이 그다지 명확하지 않고 관련이있는 상황이 있으며, 실제로 구별되는 수업이 있다는 가정은 충족되지 않습니다. 우리가 그러한 조건을 만난 곳).
반 감독 분류 자 에 대해 결정해야 할 중요한 가정 이 하나 있습니다 . 피처 공간에서 클래스 경계는 샘플 밀도가 낮다 는 가정입니다 . 이것을 클러스터 가정이라고합니다.
데이터에 기반한 현실에 고유 한 클래스가 있더라도 데이터 세트에 불균형 적으로 더 많은 경계선 사례가있을 수 있습니다. 예를 들어, 분류 기술이 어려운 사례를 분류하는 데 목표를 두는 반면 명확하고 쉬운 사례는 관심이없고 이미 훈련 데이터가이를 반영하는 경우 상태.
훈련을 위해 "확실한"분류 만 취하는가? 이 경우 "테두리"사례는 다루지 않기 때문에 더 많은 오 분류가 있을까 걱정됩니다.
경계선 사례를 제외하는 것은 종종 나쁜 생각이라는 데 전적으로 동의합니다. 어려운 모든 사례를 제거하면 인위적으로 쉬운 문제가 발생합니다. IMHO 경계선 사례를 제외하는 것이 일반적으로 모델 교육으로 중단되지는 않지만 경계선 케이스도 테스트에서 제외되므로 모델을 쉽게 테스트 할 수 있습니다. 그것으로 당신은 모델이 경계선 사례에서 잘 수행되지 않는다는 것을 깨닫지 못할 것입니다.
다음은 응용 프로그램에서 현실이 "혼합 된"클래스를 가질 수 있다는 점에서 문제와 다른 문제에 대해 작성한 두 가지 논문입니다.
- 응용 : 뇌종양 진단. 로지스틱 회귀를 사용했습니다. 클래스 경계에서 낮은 샘플 밀도를 가정 할 수 없기 때문에 반 감독 모델링은 적절하지 않습니다.
C. Beleites, K. Geiger, M. Kirsch, SB Sobottka, G. Schackert 및 R. Salzer : 성상 세포 조직의 라만 분광 등급 : 소프트 참조 정보 사용, Anal. 바이오 항문. Chem., 400 (2011), 2801-2816.
- 경계선 사례에 대한 분류기의 성능을 측정하기위한 일반적인 프레임 워크를 도출 한 이론 논문.
C. Beleites, R. Salzer 및 V. Sergo :
부분 클래스 멤버십을 사용한 소프트 분류 모델의 검증 : Astrocytoma Tissues
Chemom의 등급에 적용되는 민감도 및 Co. Intell. 랩. Syst., 122 (2013), 12-22.
링크는 성능 계산을 위해 개발 한 R 패키지의 프로젝트 페이지로 이동합니다. 공식 웹 페이지와 논문 원고 모두에 대한 추가 링크가 있습니다. 지금까지 Weka를 사용하지 않았지만 R에 대한 인터페이스를 사용할 수 있음을 이해합니다 .
실용적인 고려 사항 :
- 복사 및 레이블에 따라 다른 접근 방식은 간단하지만 실제로 모든 분류 자 및 구현에서 제대로 작동하지는 않습니다. 예를 들어, AFAIK
libSVM
는 각 데이터 포인트의 모든 복사본이 동일한 교차 유효성 검사 폴더에 유지되어야한다는 교차 유효성 검사를 통해 튜닝에 알릴 방법이 없습니다 . 따라서 libSVM
튜닝은 아마도 과적 합 모델을 만들어 낼 것입니다.
- 또한 로지스틱 회귀 분석의 경우 많은 구현에서 필요한 부분 멤버쉽 레이블을 허용하지 않는 것으로 나타났습니다.
- 위의 논문에 사용한 구현은 실제로 로지스틱을 시그 모이 드 연결 함수 (
nnet::multinom
) 로 사용하여 숨겨진 레이어가없는 ANN 입니다.