앙상블 학습의 k- 폴드 교차 검증


20

앙상블 학습의 k- 폴드 교차 검증을 위해 데이터를 분할하는 방법에 대해 혼란스러워합니다.

분류를위한 앙상블 학습 프레임 워크가 있다고 가정합니다. 첫 번째 계층에는 분류 모델 (예 : svm, 의사 결정 트리)이 있습니다.

두 번째 레이어에는 첫 번째 레이어의 예측을 결합하고 최종 예측을 제공하는 투표 모델이 포함되어 있습니다.

5 배 교차 검증을 사용하는 경우 다음과 같이 5 배를 사용하려고합니다.

  • 첫 번째 레이어를 훈련하기위한 3 배
  • 두 번째 레이어 훈련을위한 1 배
  • 테스트를위한 1 배

이것이 올바른 방법입니까? 첫 번째 계층과 두 번째 계층의 학습 데이터가 독립적이어야합니까? 앙상블 학습 프레임 워크가 견고해질 수 있도록 독립적이어야한다고 생각합니다.

내 친구는 첫 번째 레이어와 두 번째 레이어의 교육 데이터가 동일해야한다고 제안합니다.

  • 첫 번째와 두 번째 레이어 훈련을위한 4 개의 겹
  • 테스트를위한 1 배

이런 식으로, 우리는 앙상블 학습 프레임 워크에 대한보다 정확한 에러를 가질 것이며, 프레임 워크의 반복적 인 튜닝은 단일 트레이닝 데이터를 기반으로하기 때문에 더 정확할 것입니다. 또한, 제 2 층은 독립적 인 훈련 데이터를 향한 편향 일 수있다

모든 조언은 대단히 감사합니다

답변:


26

앙상블 학습은 몇 가지 다른 방법을 말합니다. 부스팅과 배깅은 아마도 가장 일반적인 두 가지 일 것입니다. 스태킹 이라는 앙상블 학습 방법을 구현하려는 것 같습니다 . 스태킹은 여러 학습 알고리즘의 예측을 결합하여 정확도를 향상시키는 것을 목표로합니다. 스태킹을 수행하는 몇 가지 방법이 있지만 엄격한 이론은 많지 않습니다. 그래도 직관적이고 인기가 있습니다.

친구의 접근 방식을 고려하십시오. 첫 번째 레이어 모델을 5 중 4 중에 맞추고 동일한 4 배를 사용하여 두 번째 레이어 (투표) 모델을 맞추고 있습니다. 문제는 두 번째 레이어가 훈련 오류가 가장 적은 모델을 선호한다는 것입니다. 동일한 데이터를 사용하여 모델을 맞추고 해당 모델을 집계하는 절차를 고안합니다. 두 번째 레이어는 샘플 외부 예측을 사용하여 모델을 결합해야합니다 . 당신의 방법은 더 좋지만 여전히 더 잘 할 수있는 방법이 있습니다.

우리는 테스트 목적으로 계속해서 하나의 배를 남겨 둘 것입니다. 4 개의 폴드를 취하고 4 개의 폴드 CV를 사용하여 4 개의 모든 폴드에서 첫 번째 레이어 모델 각각에 대한 샘플 외부 예측을 얻습니다. 즉, 네 개의 접힘 중 하나를 제외하고 다른 세 가지에 모형을 맞춘 다음 보류 된 데이터를 예측합니다. 4 개의 접기를 모두 반복하여 4 개의 접기에 대해 표본 외 예측을 얻습니다. 그런 다음 샘플 외부 예측에 두 번째 레이어 모델을 맞 춥니 다. 그런 다음 첫 번째 레이어 모델을 네 접힘에 모두 다시 맞 춥니 다. 이제 아직 건드리지 않은 다섯 번째 접기로 이동할 수 있습니다. 보류 된 데이터의 오류를 추정하려면 두 번째 계층 모델과 함께 네 가지 접힘에 모두 맞는 첫 번째 계층 모델을 사용하십시오. 첫 번째 및 두 번째 레이어 모델 피팅에서 다른 접는 선을 사용하여이 프로세스를 다시 반복 할 수 있습니다.

성능이 만족 스러우면 다섯 번 모두에서 첫 번째 레이어 모델에 대한 샘플 외부 예측을 생성 한 다음 두 번째 레이어 모델을 여기에 맞 춥니 다. 그런 다음 첫 번째 레이어 모델을 마지막으로 모든 데이터에 맞추고 새로운 데이터에서 두 번째 레이어 모델과 함께 사용하십시오!

마지막으로 일반적인 조언이 있습니다. 첫 번째 레이어 모델이 서로 상당히 다른 경우 더 많은 이점을 얻을 수 있습니다. SVM과 의사 결정 트리를 사용하는 올바른 경로에 있습니다. 두 번째 레이어 모델의 평균화 효과가 있기 때문에 첫 번째 레이어 모델을 점진적으로 과도하게 맞추려고 할 수 있습니다 (특히 모델이 많은 경우). 두 번째 레이어는 일반적으로 단순하며 가중치의 음이 아닌 단조 성과 같은 제약 조건이 일반적입니다. 마지막으로 스태킹은 교차 유효성 검사에 의존하며 이는 실제 위험의 추정치 일뿐입니다. 접기마다 매우 다른 오류율과 매우 다른 모델 가중치를 얻는 경우 이력서 기반 위험 추정치의 편차가 크다는 것을 나타냅니다. 이 경우 간단한 블렌딩 을 고려할 수 있습니다첫 번째 레이어 모델의 또는 각 첫 번째 레이어 모델에 배치 된 최대 / 최소 가중치에 대한 제약 조건으로 쌓아서 손상시킬 수 있습니다.


매우 유용한 제안에 감사드립니다. 네 번째 단락을 이해하지 못합니다. 다시 훈련하는 것 같습니다. 세 번째 단락이 제안 된 방법을 요약했다고 생각합니까?
Michael

1
교차 유효성 검사와 마찬가지로 평소와 같이 모델에 만족하면 모든 데이터를 사용하여 다시 학습합니다. 3 항에 설명 된 모델은 보류 된 데이터에 적합하지 않습니다. 데이터 보유는 모델 평가 및 선택을 안내하는 도구입니다. 항상 모든 데이터에 최종 모델을 적용해야합니다.
MichaelJ

이 접근법은 피드 포워드 신경망과 유사합니다
Michael

좋은 설명입니다. 단지 부족한 것은 도표이다;)
josh
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.