앙상블 학습 : 왜 모델 스태킹이 효과적입니까?


11

최근에는 앙상블 학습의 한 형태 인 모델 스태킹에 관심을 가지게되었습니다. 특히 회귀 문제에 대한 장난감 데이터 세트를 약간 실험했습니다. 나는 기본적으로 개별 "레벨 0"회귀자를 구현하고, 각 회귀 분석기의 출력 예측을 "메타 회귀 분석기"가 입력으로 사용할 수있는 새로운 기능으로 저장하고이 메타 회귀기를 이러한 새로운 기능 (수준에서의 예측)에 맞추 었습니다. 회귀 자 0 개). 유효성 검사 세트에 대해 메타 회귀 분석기를 테스트 할 때 개별 회귀 분석기보다 완만하게 개선 된 것을보고 매우 놀랐습니다.

그래서, 내 질문이 있습니다 : 왜 모델 스태킹이 효과적입니까? 직관적으로, 스태킹을 수행하는 모델이 각 레벨 0 모델에 비해 기능 표현이 불완전한 것으로 보이므로 성능이 저하 될 것으로 예상합니다. 즉, 20 개의 피처가있는 데이터 세트에서 3 개의 레벨 0 회귀자를 학습하고이 레벨 0의 회귀 변수 예측을 내 메타 회귀 기의 입력으로 사용하면 내 메타 회귀 기에서 배울 수있는 기능이 3 개뿐입니다. 메타 회귀가 훈련에 사용하는 3 개의 출력 기능보다 레벨 0 회귀자가 훈련에 대해 가지고있는 20 개의 원래 기능에 더 많은 정보가 인코딩되어있는 것 같습니다.

답변:


5

기본적으로 중앙 한계 정리의 착취로 생각하십시오.

중심 한계 정리는 표본 크기가 증가함에 따라 표본의 평균이 모집단 평균의 실제 위치에 대한 점점 더 정확한 추정치가 될 것이라고 말하고 있으며 (현재 통계라고 가정 할 경우) 분산이 강화 될 것입니다. .

하나의 모형이 있고 종속 변수에 대한 하나의 예측을 생성하는 경우 해당 예측은 어느 정도 높거나 낮을 수 있습니다. 그러나 다른 예측을 생성하는 3 개 또는 5 개 또는 10 개의 서로 다른 모델이있는 경우 주어진 관측치에 따라 일부 모델의 높은 예측은 다른 모델의 낮은 오류를 상쇄하는 경향이 있으며 그 결과는 평균의 수렴이됩니다 "진리"에 대한 예측의 (또는 다른 조합). 모든 관찰에서가 아니라 일반적으로 그것은 경향입니다. 따라서 일반적으로 앙상블은 최고의 단일 모델보다 성능이 우수합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.