앙상블 학습의 k- 폴드 교차 검증을 위해 데이터를 분할하는 방법에 대해 혼란스러워합니다.
분류를위한 앙상블 학습 프레임 워크가 있다고 가정합니다. 첫 번째 계층에는 분류 모델 (예 : svm, 의사 결정 트리)이 있습니다.
두 번째 레이어에는 첫 번째 레이어의 예측을 결합하고 최종 예측을 제공하는 투표 모델이 포함되어 있습니다.
5 배 교차 검증을 사용하는 경우 다음과 같이 5 배를 사용하려고합니다.
- 첫 번째 레이어를 훈련하기위한 3 배
- 두 번째 레이어 훈련을위한 1 배
- 테스트를위한 1 배
이것이 올바른 방법입니까? 첫 번째 계층과 두 번째 계층의 학습 데이터가 독립적이어야합니까? 앙상블 학습 프레임 워크가 견고해질 수 있도록 독립적이어야한다고 생각합니다.
내 친구는 첫 번째 레이어와 두 번째 레이어의 교육 데이터가 동일해야한다고 제안합니다.
- 첫 번째와 두 번째 레이어 훈련을위한 4 개의 겹
- 테스트를위한 1 배
이런 식으로, 우리는 앙상블 학습 프레임 워크에 대한보다 정확한 에러를 가질 것이며, 프레임 워크의 반복적 인 튜닝은 단일 트레이닝 데이터를 기반으로하기 때문에 더 정확할 것입니다. 또한, 제 2 층은 독립적 인 훈련 데이터를 향한 편향 일 수있다
모든 조언은 대단히 감사합니다