테스트 세트와 트레이닝 세트의 분포 차이를 처리하는 방법은 무엇입니까?


23

머신 러닝이나 파라미터 추정의 기본 가정 중 하나는 보이지 않는 데이터가 훈련 세트와 동일한 분포에서 나온다고 생각합니다. 그러나 실제 사례의 경우 테스트 세트의 분포가 훈련 세트와 거의 다릅니다.

제품 설명을 약 17,000 개의 클래스로 분류하려는 대규모 다중 분류 문제가 있다고 가정 해보십시오. 훈련 세트는 수업에 치우친 수업이 있기 때문에 일부 수업에는 많은 훈련 예제가있을 수 있지만 일부 수업에는 몇 가지만있을 수 있습니다. 클라이언트로부터 알 수없는 클래스 레이블이있는 테스트 세트가 있다고 가정하십시오. 훈련 세트에 대해 훈련 된 분류기를 사용하여 테스트 세트의 각 제품을 17,000 개의 클래스 중 하나로 분류하려고합니다. 테스트 세트는 클래스 분포가 왜곡되었을 수 있지만 다른 비즈니스 영역과 관련 될 수 있으므로 교육 세트와는 매우 다를 수 있습니다. 두 클래스 분포가 매우 다른 경우 훈련 된 분류 기가 테스트 세트에서 제대로 작동하지 않을 수 있습니다. 이것은 Naive Bayes 분류기에서 특히 분명해 보입니다.

확률 론적 분류기에 대한 훈련 세트와 특정 시험 세트의 차이를 처리하는 원칙적인 방법이 있습니까? "변환 SVM"이 SVM에서 비슷한 기능을 수행한다고 들었습니다. 특정 테스트 세트에서 최상의 성능을 발휘하는 분류기를 배우는 유사한 기술이 있습니까? 그런 다음이 실제 시나리오에서 허용되는대로 다른 주어진 테스트 세트에 대해 분류자를 재교육 할 수 있습니다.

답변:


17

차이점이 교육 및 테스트 세트의 상대 클래스 빈도에만 해당되는 경우이 백서에서 소개 한 EM 절차를 권장합니다.

Marco Saerens, Patrice Latinne, Christine Decaestecker : 분류기의 출력을 사전 확률을 새로 조정하도록 조정 : 간단한 절차. 신경 계산 14 (1) : 21-41 (2002) ( www )

나는 그것을 직접 사용하고 잘 작동한다는 것을 알았습니다 (그러나 클래스 멤버쉽의 가능성을 출력하는 분류 기가 필요합니다).

각 클래스 내에서 패턴의 분포가 변경되면 문제는 "공변량 이동"으로 알려져 있으며 Sugiyama와 Kawanabe 있습니다. 이 그룹의 많은 논문은 온라인으로 제공되지만 사본을 얻을 수 있다면 책을 읽는 것이 좋습니다. 기본 아이디어는 트레이닝 세트와 테스트 세트 (라벨이 필요하지 않은)의 밀도 차이에 따라 트레이닝 데이터에 가중치를 부여하는 것입니다. 가중치를 얻는 간단한 방법은 로지스틱 회귀 분석을 사용하여 패턴이 훈련 세트에서 추출되는지 테스트 세트에서 추출되는지 예측하는 것입니다. 어려운 부분은 적용 할 가중치를 선택하는 것입니다.

Alex Smola의 멋진 블로그 게시물을 참조 하십시오 .


유용한 포인터를 제공해 주셔서 대단히 감사합니다!
Fashandge

문제 없습니다. 이런 종류의 "비표준"상황은 정말 흥미롭고 공변량 이동은 특히 유용한 연구 분야입니다.
Dikran Marsupial

1
를 알아서 좋다. "비표준"이지만 실제로는 현실적입니다.
Fashandge

1

자세한 내용을 설명 할 수있는 도메인 적응에 대한 훌륭한 자습서를 찾았습니다. http://sifaka.cs.uiuc.edu/jiang4/domain_adaptation/survey/da_survey.html 여기에 언급되지 않은 한 가지 솔루션은 ADABOOST에. 원래 기사에 대한 링크는 다음과 같습니다. http://ftp.cse.ust.hk/~qyang/Docs/2007/tradaboost.pdf 기본 아이디어는 새로운 테스트 데이터 중 일부를 사용하여 열차 데이터로부터 학습을 업데이트하는 것입니다. 이 기사는 한 과제에서 아는 것을 다른 과제에 적용하는 전이 학습에 관한 빙산의 일각입니다.


1
링크가 끊어 지거나 위치가 변경되는 경우 특히 첫 번째 자습서의 주요 요약 요점을 포함시킬 수 있습니까? 링크의 작동이 중지되어 이전 답변 중 일부의 값이 저하되는 "링크 썩음"에 문제가 있습니다. 따라서 답변을 최대한 포함 할 수 있다면 좋을 것입니다.
Silverfish

여기에 보관 된 링크는 다음과 같습니다 web.archive.org/web/20170930145238/http://sifaka.cs.uiuc.edu/...
Justas
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.