머신 러닝이나 파라미터 추정의 기본 가정 중 하나는 보이지 않는 데이터가 훈련 세트와 동일한 분포에서 나온다고 생각합니다. 그러나 실제 사례의 경우 테스트 세트의 분포가 훈련 세트와 거의 다릅니다.
제품 설명을 약 17,000 개의 클래스로 분류하려는 대규모 다중 분류 문제가 있다고 가정 해보십시오. 훈련 세트는 수업에 치우친 수업이 있기 때문에 일부 수업에는 많은 훈련 예제가있을 수 있지만 일부 수업에는 몇 가지만있을 수 있습니다. 클라이언트로부터 알 수없는 클래스 레이블이있는 테스트 세트가 있다고 가정하십시오. 훈련 세트에 대해 훈련 된 분류기를 사용하여 테스트 세트의 각 제품을 17,000 개의 클래스 중 하나로 분류하려고합니다. 테스트 세트는 클래스 분포가 왜곡되었을 수 있지만 다른 비즈니스 영역과 관련 될 수 있으므로 교육 세트와는 매우 다를 수 있습니다. 두 클래스 분포가 매우 다른 경우 훈련 된 분류 기가 테스트 세트에서 제대로 작동하지 않을 수 있습니다. 이것은 Naive Bayes 분류기에서 특히 분명해 보입니다.
확률 론적 분류기에 대한 훈련 세트와 특정 시험 세트의 차이를 처리하는 원칙적인 방법이 있습니까? "변환 SVM"이 SVM에서 비슷한 기능을 수행한다고 들었습니다. 특정 테스트 세트에서 최상의 성능을 발휘하는 분류기를 배우는 유사한 기술이 있습니까? 그런 다음이 실제 시나리오에서 허용되는대로 다른 주어진 테스트 세트에 대해 분류자를 재교육 할 수 있습니다.