앙상블 방법은 모든 구성 요소를 어떻게 능가합니까?

16

나는 앙상블 학습에 대해 약간 혼란스러워합니다. 간단히 말해서, k 모델을 실행하고 이러한 k 모델의 평균을 얻습니다. k 모델의 평균이 다른 모델보다 우수하다는 것을 어떻게 보장 할 수 있습니까? 편견이 "확산"또는 "평균화"되었음을 이해합니다. 그러나 앙상블에 두 개의 모델 (예 : k = 2)이 있고 그 중 하나가 다른 것보다 나쁘면 앙상블이 더 나은 모델보다 나쁘지 않습니까?

machine-learning ensemble

— 사용자 1691278
소스

스태킹 관련 : 스태킹 : 더 많은 기본 분류 기가 항상 정확도를 향상 시킵니까?

— Franck Dernoncourt

이 스레드는 나에게 관심이 있지만 답변보다 많은 질문을 제기했습니다. 우리 모두가 조금 더 많은 를 사용하여 우리가 사용하는 모든 단어를 더 엄격하게 정의 할 수 있습니까?

L A T E X

$\LaTeX$

— Taylor

23

보장되지 않습니다. 말했듯이 앙상블은 개별 모델보다 나쁠 수 있습니다. 예를 들어, 실제 모델과 불량 모델의 평균을 취하면 상당히 나쁜 모델이됩니다.

모델 의 평균은 모델이 (어떤) 서로 독립적 인 경우에만 개선됩니다. 예를 들어, 배깅에서 각 모델은 데이터의 임의의 하위 집합을 기반으로 구축되므로 일부 독립성이 내장되어 있습니다. 또는 서로 다른 기능 조합을 사용하여 모델을 구축 한 다음 평균화를 통해 모델을 결합 할 수 있습니다. $k$

또한 모델 평균은 개별 모델의 분산이 높은 경우에만 잘 작동합니다. 그렇기 때문에 매우 큰 나무를 사용하여 임의의 숲을 만듭니다. 반면에 선형 회귀 모델을 평균하면 선형 모델이 제공되므로 시작한 모델보다 나을 가능성이 적습니다 (시도하십시오!).

부스팅 및 블렌딩과 같은 다른 앙상블 방법은 개별 모델의 출력을 훈련 데이터와 함께 더 큰 모델의 입력으로 가져와 작동합니다. 이 경우 실제로 더 복잡하고 여전히 훈련 데이터를 사용하기 때문에 개별 모델보다 더 잘 작동한다는 것은 놀라운 일이 아닙니다.

— under 치
소스

RF가 큰 분산을 달성하기 위해 많은 수의 트리를 사용한다는 것을 의미하지 않습니까? 나무가 커짐에 따라 대부분의 기능에 적용되며 모델 간 차이가 줄어들 것으로 기대합니다.

— Itamar

아니요, @Flounderer가 정확합니다. 의사 결정 트리를 불안정한 모델이라고합니다. 데이터를 약간 변경하면 매우 다른 나무를 얻게됩니다. 임의의 숲은 그들을 안정시키는 수단입니다. 약간 다른 데이터 샘플로 두 개의 RF를 훈련 시키면 비슷한 모델이 생성됩니다.

— Ricardo Cruz

"다양한 선형 회귀 모델을 평균하면 여전히 선형 모델이 제공됩니다"<-여기서 평균을 의미한다는 것은 무엇을 의미합니까? 또한 어떤 차이에 대해 이야기하고 있습니까?

— Taylor

6

예를 들어, 두 모델의 앙상블은 단일 모델 자체보다 나쁠 수 있습니다. 그러나 당신의 모범은 인공적인 것입니다. 우리는 일반적으로 앙상블에서 둘 이상을 만듭니다.

앙상블 모델이 개별 모델보다 성능이 우수하다는 보장은 없지만, 많은 모델을 구축하고 개별 분류 기가 약한 경우 . 전반적인 성능은 개별 모델보다 우수해야합니다.

기계 학습에서 여러 모델 훈련은 일반적으로 단일 모델 훈련보다 성능이 뛰어납니다. 튜닝 할 파라미터가 더 많기 때문입니다.

— 스몰 체스
소스

2

나는이 맥락에서 거의 논의되지 않은 것을 던지기를 원하며, 그것은 당신에게 생각의 음식을 줄 것입니다.

앙상블은 또한 인간과 함께 작동합니다!

사람의 예측을 평균하면 개별 예측보다 더 나은 예측을하는 것으로 관찰되었습니다. 이것은 군중의 지혜로 알려져 있습니다.

이제는 일부 사람들이 다른 정보를 가지고 있기 때문에 정보를 효과적으로 평균화하고 있다고 주장 할 수 있습니다. 그러나 아니오, 이것은 단지의 콩 수를 추측하는 것과 같은 작업에서도 마찬가지입니다.

이것에 관한 많은 책과 실험이 있으며,이 현상은 여전히 연구원들을 혼란스럽게합니다.

@Flounderer가 지적했듯이, 실제 이익은 의사 결정 트리와 같은 소위 불안정한 모델에서 비롯되며 각 관측치가 일반적으로 결정 경계에 영향을 미칩니다. 리샘플링은 일반적으로 지원 벡터에 큰 영향을 미치지 않기 때문에 SVM과 같은보다 안정적인 것들은 많이 얻지 못합니다.

— 리카르도 크루즈
소스

1

그렇기 때문에 저는 항상 저와는 다른 사람들을 고용하려고했습니다. 유연하고 효과적인 팀을 구축하기위한 좋은 조언.

— Matthew Drury

0

실제로 단일 모델이 앙상블보다 낫습니다.

데이터에 일부 모델이 과대 평가되고 일부는 과소 평가되는 지점이 없더라도 (평균 오차가 소멸 될 수 있기를 희망 할 수 있음) 가장 인기있는 손실 함수 (평균 제곱 손실 등) 중 일부는 불이익을받습니다 약간의 중간 편차보다 큰 단일 편차. 평균을 구하는 모델이 다소 다른 경우 평균이 현저한 편차를 제거 할 때 분산이 "낮게"되기를 바랍니다. 아마 그것으로 설명 할 것입니다 그 .

— 사우스 싱어
소스

0

그렇습니다. 그러나 앙상블의 아이디어는 다른 앙상블에서 데이터의 다른 특성을 캡처하면서 과도한 피팅을 피하기 위해 더 간단한 모델을 훈련시키는 것입니다. 물론 동일한 훈련 데이터로 훈련하는 동안 단일 모델보다 우수한 앙상블 모델을 보장 할 수는 없습니다. 앙상블 모델과 부스팅 (예 : AdaBoost)을 결합하여 성능을 향상시킬 수 있습니다. 강화하면 각 데이터 포인트에 가중치를 할당하고 오류에 따라 업데이트하여 다음 각 Ensemle 모델을 훈련시킵니다. 따라서 좌표 하강 알고리즘으로 생각하면 일정한 평균 모델 복잡성을 유지하면서 각 반복마다 훈련 오류를 줄일 수 있습니다. 전반적으로 이것은 성능에 영향을 미칩니다. 많이있다

— 케렘 T
소스