앙상블 분류기를 언제 사용하지 않아야합니까?


17

일반적으로 샘플 외부 클래스 멤버십을 정확하게 예측하는 것이 목표 인 분류 문제에서 앙상블 분류기를 사용 하지 않아야 하는 시점은 언제 입니까?

이 질문은 항상 앙상블 학습을 사용하지 않는 이유 와 밀접한 관련이 있습니다. . 이 질문은 왜 앙상블을 항상 사용하지 않는지 묻습니다. 나는 앙상블이 아닌 것 보다 앙상블이 더 나쁜 것으로 알려진 경우가 있는지 알고 싶다 .

그리고 "앙상블 분류기"란 롤 애프터 부스트 지원 벡터 머신과 달리 AdaBoost 및 임의 포리스트와 같은 분류기를 구체적으로 언급합니다.


2
개별 방법 사이에 다양성이 없다면 앙상블 방법을 사용하지 않을 것입니다. 즉, 앙상블은 다양한 방법을 결합 할 때 유용합니다.
예측 자

2
@forecaster 나는 저자는 "좋은"와 "나쁜"다양성 부르는 것에 대해 아주 좋은 용지를 추가하는 데 도움이되지 수 pages.bangor.ac.uk/~mas00a/papers/gblkMCS10.pdf 앙상블의 맥락에서
Vladislavs Dovgalecs

아르 자형이자형나는영형영형나는와이 나는에스나는아르 자형이자형

답변:


7

실제 데이터 생성 프로세스에 가장 가까운 모델은 항상 최고이며 대부분의 앙상블 방법을 능가합니다. 따라서 데이터가 선형 프로세스에서 나온 경우 lm ()은 임의 포리스트보다 훨씬 우수합니다.

    set.seed(1234)
p=10
N=1000
#covariates
x = matrix(rnorm(N*p),ncol=p)
#coefficients:
b = round(rnorm(p),2)
y = x %*% b + rnorm(N)
train=sample(N, N/2)
data = cbind.data.frame(y,x)
colnames(data) = c("y", paste0("x",1:p))
#linear model
fit1 = lm(y ~ ., data = data[train,])
summary(fit1)
yPred1 =predict(fit1,data[-train,])
round(mean(abs(yPred1-data[-train,"y"])),2)#0.79

library(randomForest)
fit2 = randomForest(y ~ ., data = data[train,],ntree=1000)
yPred2 =predict(fit2,data[-train,])
round(mean(abs(yPred2-data[-train,"y"])),2)#1.33

13

모델이 해석 가능하고 설명 가능해야하는 경우 앙상블 분류기를 사용하지 않는 것이 좋습니다. 때로는 예측에 대한 예측 설명 이 필요합니다 .

사람들에게 예측이 믿을만한 가치가 있다는 것을 확신시켜야 할 때, 매우 정확한 모델은 설득력이있을 수 있지만, 방법이 편안함에 비해 너무 복잡 할 때 사람들이 예측에 대해 행동하도록 설득하기 위해 고군분투했습니다.

내 경험상, 대부분의 사람들은 선형 부가 모델, 손으로 점수를 매길 수있는 모델에 익숙하며, 적응 형 부스팅, 초평면 및 5 단계 상호 작용 효과를 설명하려고하면 마치 마술처럼 던지는 것처럼 반응합니다.

반면에 사람들은 모델의 복잡성에 익숙하지만 여전히 통찰력을 내재화하려고합니다. 예를 들어 과학자들은 모델이 매우 정확하더라도 블랙 박스 모델이 인간 지식의 진보라고 생각하지 않을 수 있습니다.

변수 중요도 분석은 통찰력에 도움이 될 수 있지만, 앙상블이 선형 가산 모델보다 정확하다면, 앙상블은 아마도 변수 중요도 분석이 완전히 설명 할 수없는 비선형 및 상호 작용 효과를 활용하고있을 것입니다.


내가 무엇을했는지가 아니라 좋은 점. +1
shadowtalker

3

branco의 답변에 추가하고 싶습니다. 앙상블은 경쟁이 치열하고 매우 좋은 결과를 제공 할 수 있습니다. 예를 들어, 학계에서는 이것이 중요합니다. 산업에서 앙상블은 구현 / 유지 / 수정 / 포트하기가 너무 어려울 수 있습니다. "Dark Knowledge"에 대한 Goef Hinton의 연구는 바로 이것에 관한 것입니다. 큰 앙상블의 "지식"을 모델로 이동하기 쉬운 것으로 옮기는 방법. 그는 앙상블이 테스트 시간에 나쁘다는 점을 지적했다. 이들은 중복성이 높고 계산 시간이 문제가 될 수있다.

그의 팀은 흥미로운 결과를 얻었습니다. 그의 출판물이나 적어도 슬라이드를 확인하는 것이 좋습니다. 내 기억력이 좋으면 2013 또는 2014 년 화제가되었습니다.

Dark Knowledge에 대한 슬라이드는 여기에서 찾을 수 있습니다 : http://www.ttic.edu/dl/dark14.pdf

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.