랜덤 포레스트는 과적 합을 할 수 없습니까?


10

임의의 숲이 과적 합할 수 없다는 몇 가지 문헌을 읽었습니다. 이것은 훌륭하게 들리지만 사실이 되기에는 너무 좋은 것 같습니다. rf가 과적 합할 수 있습니까?


5
맞으면 과적 합할 수 있습니다. RF의 관점에서, 숲에 나무가 충분하지 않으면 어떻게 될지 생각해보십시오 (숲이 효과를 명확하게하기 위해 단일 나무 임). 이것보다 더 많은 문제가 있지만 이것이 가장 분명합니다.
Marc Claesen

방금 예측 변수의 수가 많으면 RF에 대한 다른 스레드에 쉽게 응답 할 수 있다고 응답했습니다.
horaceT

답변:


7

임의의 포리스트가 과적 합 될 수 있습니다. 나는 이것을 확신한다. 일반적으로 더 많은 나무를 사용하면 모델이 과적 합하지 않습니다.

예를 들어 임의의 포리스트를 사용하여 모델을 추정하십시오 . 거의 제로 훈련 오류가 발생하지만 나쁜 예측 오류가 발생합니다y=log(x)+ϵ


랜덤 포레스트는 주로 분산을 줄입니다. @Donbeo는 의사 결정 트리 모델이 외삽에서 제대로 수행되지 않기 때문에 가능할 수 있습니다. 이상 예측 변수에 대해 DT가 잘못된 예측을 제공 할 수 있다고 가정하겠습니다.
Itachi

과적 합의 명확한 표시 중 하나는 잔차 분산이 너무 많이 줄어든다는 것입니다. 그러면 첫 번째 말로 무엇을 암시하려고합니까?
whuber

바이어스-분산 트레이드 오프에서, 바이어스를 줄이려고 할 때, 우리는 분산을 보상합니다. 따라서 x = 80이면 y = 100이되지만 x = 81이면 y = -100이됩니다. 이것은 너무 적합 합니다. 분산이 높을 때와 유사하지 않습니다. @ whuber 나는 ovefitting이 높은 분산 때문이라고 가정했습니다. 잔차 분산이 과적 합을 어떻게 초래하는지 이해하지 못합니다. 내가 읽을 수 있도록 종이를 나누어 주시겠습니까?
Itachi

2
이것은 종이가 필요하지 않습니다! 직접해볼 수 있습니다. 같은 작은 간단한의 이변 량 데이터 세트를 가져 및 모든 해당 수집 당신이 생산에 관심을. (이 목적은 잔여의 분산을 감소시키기 때문에), 모델 시리즈 맞는 최소 제곱 법을 사용하여 에 대한 . 각 단계는 마지막 단계에서 분산이 0이 될 때까지 분산을 줄입니다. 어느 시점에서, 거의 모든 사람들이 동의 할 것이며, 모델은 데이터를 과적 합하기 시작했습니다. y i y = β 0 + β 1 x + β 2 x 2 + + β k x k k = 0 , 1 , , 9xi=1,2,,10yiy=β0+β1x+β2x2++βkxkk=0,1,,9
whuber

1
@Davide 귀하의 의견은 임의의 숲에 대한 진술이 아니라 분산 감소 및 과적 합의 기본 개념에 대한 예를 제시하고 있음을 명시 적으로 언급했음을 나타냅니다. 그러나 첫 번째 주석은 관련이 없기 때문에 불투명합니다 (그리고 내가 읽을 때 올바르지 않습니다). 잔차 분산은 예측 분산이 아닌이 OLS 모델 시퀀스에서 중요합니다. 실제로 모형 적합에 대한 일반적인 질문으로 돌아가서 예측의 분산을 줄이는 것이 목표라면 항상 0을 예측하는 모든 모형이 최적입니다!
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.