최근에는 앙상블 학습의 한 형태 인 모델 스태킹에 관심을 가지게되었습니다. 특히 회귀 문제에 대한 장난감 데이터 세트를 약간 실험했습니다. 나는 기본적으로 개별 "레벨 0"회귀자를 구현하고, 각 회귀 분석기의 출력 예측을 "메타 회귀 분석기"가 입력으로 사용할 수있는 새로운 기능으로 저장하고이 메타 회귀기를 이러한 새로운 기능 (수준에서의 예측)에 맞추 었습니다. 회귀 자 0 개). 유효성 검사 세트에 대해 메타 회귀 분석기를 테스트 할 때 개별 회귀 분석기보다 완만하게 개선 된 것을보고 매우 놀랐습니다.
그래서, 내 질문이 있습니다 : 왜 모델 스태킹이 효과적입니까? 직관적으로, 스태킹을 수행하는 모델이 각 레벨 0 모델에 비해 기능 표현이 불완전한 것으로 보이므로 성능이 저하 될 것으로 예상합니다. 즉, 20 개의 피처가있는 데이터 세트에서 3 개의 레벨 0 회귀자를 학습하고이 레벨 0의 회귀 변수 예측을 내 메타 회귀 기의 입력으로 사용하면 내 메타 회귀 기에서 배울 수있는 기능이 3 개뿐입니다. 메타 회귀가 훈련에 사용하는 3 개의 출력 기능보다 레벨 0 회귀자가 훈련에 대해 가지고있는 20 개의 원래 기능에 더 많은 정보가 인코딩되어있는 것 같습니다.