부스팅은 어떻게 작동합니까?


23

부스팅을 이해하는 가장 쉬운 방법은 무엇입니까?

왜 매우 약한 분류기를 "무한대"(완벽하게) 향상시키지 않습니까?

답변:


28

일반 영어 : 분류자가 일부 데이터를 잘못 분류하는 경우이 분류되지 않은 부분을 중심으로 다른 사본을 훈련하여 미묘한 것을 발견 할 수 있도록합니다. 그리고 평소처럼 반복합니다. 도중에 모든 분류 자의 예측을 합리적으로 결합 할 수있는 투표 방식이 있습니다.

때로는 불가능하기 때문에 (소음이 일부 정보를 숨기거나 데이터에없는 경우도 있음); 반면에 너무 많이 부스트하면 과적 합으로 이어질 수 있습니다.


8

Boosting은 k- 폴드 크로스 검증, "OOB (Out-of-bag)"예측 또는 독립적 인 테스트 세트 와 함께 학습 속도 매개 변수를 통해 축소를 사용 하여 앙상블에서 유지해야하는 트리 수를 결정합니다.

우리는 느리게 학습하는 모델을 원하기 때문에 각 개별 모델의 복잡성과 포함 할 모델 수의 측면에서 절충점이 있습니다. 내가 본 지침에 따르면 학습 시간을 가능한 한 낮게 (컴퓨팅 시간 및 저장 공간 요구 사항을 감안하여) 낮게 설정해야하며, 상호 작용이 허용되는지 여부와 어느 정도까지 각 트리의 복잡성을 선택해야하는지, 트리가 복잡할수록 표현할 수있는 상호 작용이 더 복잡합니다.

학습 속도는 범위에서 선택됩니다 . 더 작은 값 ( )이 선호됩니다. 이것은 각 트리에 적용된 가중치로 각 모델의 기여도를 적합치에 적용합니다.[0,1]<0.01

k- 폴드 CV (또는 OOB 예측 또는 독립 테스트 세트)는 부스트 된 모델이 과적 합되기 시작한 시점을 결정하는 데 사용됩니다. 본질적으로 이것이 완벽한 모델로의 승격을 막는 것이지만, 천천히 배우는 것이 좋으므로 피팅 된 모델에 기여하는 모델의 큰 앙상블이 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.