앙상블이 그렇게 비합리적으로 효과적인 이유


14

학습자의 앙상블이 가능한 최상의 모델 결과를 이끌어내는 것은 공리적 인 것처럼 보이며 예를 들어 단일 모델이 Kaggle과 같은 경쟁에서이기는 것은 점점 더 어려워지고 있습니다. 앙상블이 그토록 효과적인 이유에 대한 이론적 설명이 있습니까?


1
내 추측은 중앙 한계 정리 일 것이지만 나는 정당화가 없다.

답변:


13

특정 모델의 경우 데이터를 공급하고 기능을 선택하고 하이퍼 파라미터 등을 선택하십시오. 현실과 비교하면 세 가지 유형의 실수가 있습니다.

  • 바이어스 (모델 복잡성이 너무 낮거나 데이터의 샘플링 바이어스로 인해)
  • 분산 (데이터 노이즈, 데이터 과적 합으로 인해)
  • 예측하려는 현실의 무작위성 (또는 데이터 세트에 예측 기능이 없음)

앙상블은 이러한 여러 모델의 평균을냅니다. 샘플링 바이어스로 인한 바이어스는 명백한 이유로 고정되지 않으며 일부 모델 복잡성 바이어스를 수정할 수 있지만 변경 오차는 모델마다 크게 다릅니다. 특히 상관 관계가 낮은 모델은이 영역에서 매우 다른 실수를합니다. 특정 모델은 형상 공간의 특정 부분에서 잘 작동합니다. 이러한 모델의 평균을 계산하면이 편차가 상당히 줄어 듭니다. 이것이 앙상블이 빛나는 이유입니다.


6

선택한 답변은 환상적이지만 두 가지를 추가하고 싶습니다.

  1. 인간 예측을 평균화하면 개별 예측보다 더 나은 예측을 제공하는 것으로 관찰되었습니다. 이것은 군중지혜로 알려져 있습니다. 이제는 일부 사람들이 다른 정보를 가지고 있기 때문에 정보를 평균화하고 있다고 주장 할 수 있습니다. 그러나 아니오, 이것은 단지의 콩 수를 추측하는 것과 같은 작업에서도 마찬가지입니다. 데이터 마이닝 모델에 대해 위에 주어진 몇 가지 이유와 관련이 있다고 가정합니다.
  2. 신경망에서의 드롭 아웃 방법 (훈련 중 각 반복에서 신경망 덩어리 만 사용하는 경우)과 같은 일부 기술은 신경망의 앙상블과 유사한 결과를 제공합니다. 이론적 근거는 노드가 다른 노드와 동일한 예측 변수 작업을 효과적으로 수행하여 메타 앙상블을 효과적으로 생성한다는 것입니다. 나는 우리가 전통적인 모델에서 앙상블의 장점 중 일부를 소개 할 수 있다고 지적하기 위해 이것을 말하고 있습니다.

6

이론적이며 실제적인 이유로 예측에서 승리하는 것.

이전 사건에 대한 지식을 바탕으로 다음 사건을 순서대로 예측하는 경우 최적 예측에 대한 기본 이론이 있습니다. 솔로 모노 프 예측 (Solomonoff 1964)은 "최소한의 최소 데이터 량만으로 계산 가능한 시퀀스를 정확하게 예측하는 법을 배우게 될 것"을 포함하여 여러 의미에서 최적 일 것입니다. (Hutter, Legg & Vitanyi 2007) Solomonoff 예측 변수는 Kolmogorov 프로그램의 복잡성과 Epicurean ( "모든 이론 유지")을 결합하여 프로그램이 지금까지 데이터에 할당 할 확률에 따라 기존 데이터와 호환되는 모든 프로그램에 가중치를 부여합니다. 베이지안 틀에서 Ockham ( "단순 이론 선호") 철학.

Solomonoff 예측의 최적 성 속성은 모델, 소스 또는 전문가에 대한 평균화가 예측을 개선하고 평균 예측이 최고의 단일 예측 변수보다 성능이 뛰어나다는 강력한 결과를 설명합니다. 실제로 보여지는 다양한 앙상블 방법은 솔로몬 오프 예측에 대한 계산 가능한 근사치로 볼 수 있으며 MML (Wallace 2005)과 같은 일부는 명시 적으로 관계를 탐색합니다.

Wallace (2005)는 Solomonoff 예측 변수가 모호한 것이 아니라 무한한 모델 풀을 유지하지만 필연적으로 대부분의 예측 능력은 상대적으로 작은 모델 세트에 속한다고 말합니다. 일부 영역에서는 단일 최고 모형 (또는 거의 구별 할 수없는 모형의 제품군)이 예측력의 대부분을 차지하고 일반 앙상블을 능가 할 수 있지만 이론이 거의없는 복잡한 영역에서는 단일 군이 후부 확률의 대부분을 포착하지 못할 가능성이 높습니다. 따라서 그럴듯한 후보를 평균화하면 예측이 향상되어야합니다. Netflix 상을 수상하기 위해 Bellkor 팀은 450 개 이상의 모델을 혼합했습니다 (Koren 2009).

인간은 일반적으로 하나의 좋은 설명을 추구합니다. 물리학과 같은 "고 이론적"영역에서는 이러한 것이 잘 작동합니다. 실제로 그들이 근본적인 인과 관계를 포착한다면 거의 무적이어야합니다. 그러나 이용 가능한 이론이 현상 (예 : 영화 추천 또는 지정학)과 밀접하게 일치하지 않는 경우 단일 모델의 성능이 저하됩니다. 따라서 최근 앙상블 (머신 러닝)과 크라우드의 지혜 (전문가)와 IARPA ACE와 같은 프로그램의 성공, 특히 Good Judgment Project (Tetlock & Gardiner 2015)에 중점을 둡니다.

참고 문헌

  • M. Hutter, S. Legg 및 P. Vitanyi,“알고리즘 확률”, Scholarpedia, vol. 2007 년 2 월, p. 2572.
  • Y. Koren,“Netflix 대상에 대한 BellKor 솔루션”, 2009.
  • 솔로 모노 프, 레이 (1964 년 3 월). "유도 추론의 공식 이론 1 부"(PDF). 정보 및 통제 7 (1) : 1–22. doi : 10.1016 / S0019-9958 (64) 90223-2.
  • 솔로 모노 프, 레이 (1964 년 6 월). "유도 추론의 공식 이론 II 부"(PDF). 정보 및 통제 7 (2) : 224–254. doi : 10.1016 / S0019-9958 (64) 90131-7.
  • PE Tetlock, 전문가 정치 판단 : 얼마나 좋은가요? 어떻게 알 수 있습니까?, Princeton University Press, 2005.
  • Tetlock, PE, & Gardner, D. (2015). 슈퍼 캐스팅 : 예측의 예술과 과학. 뉴욕 : 크라운.
  • CS Wallace, 최소 메시지 길이에 의한 통계 및 유도 추론, Springer-Verlag, 2005.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.