랜덤 포레스트 오버 피트는?


24

나는 랜덤 포레스트에 대해 읽었지만 실제로 초과 피팅 문제에 대한 결정적인 대답을 찾을 수 없습니다. Breiman의 최초 논문에 따르면, 그들은 숲에서 나무의 수를 늘릴 때 과적 합해서는 안되지만 이것에 대해 합의가없는 것으로 보입니다. 이로 인해 문제에 대해 약간의 혼란이 생깁니다.

나보다 더 전문가 인 사람이 좀 더 구체적으로 대답하거나 문제를 더 잘 이해할 수 있도록 올바른 방향으로 안내 할 수 있습니다.


3
모든 알고리즘이 어느 정도 오 버핏됩니다. 과적 합하지 않은 것을 고르는 것이 아니라, 과적 합의 양과보다 관련성이 높은 지표를 최대화하기 위해 해결하려는 문제의 형태를 신중하게 고려하는 것입니다.
indico

1
Breiman이 다수의 법칙에 근거한 증거를 가지고 있음을 ISTR. 누군가 그 증거에서 결함을 발견 했습니까?
JenSCDC

답변:


22

복잡도가 높은 모든 ML 알고리즘은 초과 적합 할 수 있습니다. 그러나 OP는 포리스트의 트리 수를 늘릴 때 RF가 과적 합하지 않는지 묻고 있습니다.

일반적으로 앙상블 방법은 예측 분산을 거의 아무것도 줄이지 않아 앙상블의 정확도를 향상시킵니다. 개별 무작위 모델의 예상되는 일반화 오차의 분산을 다음과 같이 정의하면 :

에서 여기 에 앙상블 대응의 예상 일반화 오류의 분산 :

여기서 p(x)두 개의 독립적 인 시드에서 동일한 데이터로 학습 된 두 개의 무작위 모델 예측 간의 피어슨 상관 계수는 RF에서 DT의 수를 크게 늘리면 M앙상블의 분산이 감소 ρ(x)<1합니다. 따라서 앙상블의 분산은 개별 모델의 분산보다 엄격하게 작습니다.

요컨대, 앙상블에서 개별 무작위 모델의 수를 늘리면 일반화 오류가 증가하지 않습니다.


1
그것은 Leo Breiman과 이론이 분명히 말한 것이지만, 경험적으로는 그들이 과적 합하는 것처럼 보입니다. 예를 들어, 현재 10 배 CV MSE가 0.02 인 모델이 있지만 실제 사실과 비교했을 때 CV MSE는 .4입니다. 나무 깊이와 나무 수를 줄이면 모델 성능이 크게 향상됩니다.
Hack-R

4
정규화를 추가하기 때문에 트리 깊이를 줄이면 다른 경우가되므로 과적 합이 줄어 듭니다. 나머지 매개 변수는 변경하지 않고 트리 수를 늘리면 MSE를 플로팅하십시오. 따라서 y 축에는 MSE가 있고 x 축에는 num_tress가 있습니다. 더 많은 나무를 추가하면 오류가 빠르게 줄어든 다음 고원이 있음을 알 수 있습니다. 그러나 그것은 결코 증가하지 않을 것입니다.
tashuhka

9

기계 학습을 포함하여 여러 가지에 대한 stachexchange 웹 사이트 인 교차 유효성 검사 를 확인할 수 있습니다 .

특히,이 질문 (정확히 동일한 제목)은 이미 여러 차례 답변되었습니다. 다음 링크를 확인하십시오. /stats//search?q=random+forest+overfit

그러나 나는 그것에 대해 짧은 대답을 줄 수 있습니다 : 그렇습니다. 숲을 짓기. 예를 randomForest들어 R에서는 복잡도 만 제어 할 수 있습니다


3
  1. 랜덤 포레스트는 과적 합합니다.
  2. 랜덤 포레스트는 더 많은 트리가 모델에 추가 될 때 일반화 오류를 증가시키지 않습니다. 더 많은 트리를 사용하면 일반화 분산이 0이됩니다.

매우 간단한 실험을했습니다. 합성 데이터를 생성했습니다.

y = 10 * x + noise

나는 두 개의 랜덤 포레스트 모델을 훈련 시켰습니다 :

  • 한 그루가 가득한 나무
  • 가지 치기 나무와 하나

전체 나무가있는 모델은 가지 치기 된 나무가있는 모델보다 열차 오류는 적지 만 테스트 오류는 높습니다. 두 모델의 응답 :

응답

과적 합의 명백한 증거입니다. 그런 다음 초과 적합 모델의 하이퍼 매개 변수를 사용하여 각 1 단계 트리를 추가하는 동안 오류를 확인했습니다. 나는 다음 줄거리를 얻었다 :

성장하는 나무

보다 많은 수의 나무를 추가 할 때 과적 합 오류가 변하지 않지만 모형이 과적 합되었음을 알 수 있습니다. 여기 내가 만든 실험에 대한 링크 가 있습니다.


1

구조화 된 데이터 세트-> 잘못된 OOB 오류

제 업무에서 RF 과적 합의 흥미로운 사례를 발견했습니다. 데이터가 OOB 관찰에 RF 과적 합 된 경우.

세부 사항 :

나는 매 시간마다 전기 현물 시장에서 전기 가격을 예측하려고합니다 (각 데이터 세트 행에는 해당 단일 시간에 대한 가격 및 시스템 매개 변수 (부하, 용량 등)가 포함되어 있습니다).
전기 가격은 일괄 적으로 생성됩니다 (한 순간에 한 번의 고정으로 전기 시장에서 24 개의 가격이 생성됨).
따라서 각 트리에 대한 OOB obs는 시간 집합의 임의의 하위 집합이지만 다음 24 시간을 예측하면 한 번에 모두 수행합니다 (처음에 모든 시스템 매개 변수를 얻은 다음 24 개의 가격을 예측하면 고정이 있음) 그 가격), 그래서 OOB 예측을 쉽게하고 다음날 전체를 위해. OOB obs는 24 시간 블록에 포함되어 있지 않지만 예측 오류의 자기 상관이 있기 때문에 단일 시간에 대한 가격을 예측하기가 더 빠르고 누락 된 시간의 전체 블록에 대해 가격을 예측하기가 쉽기 때문에 균일하게 분산됩니다.

오류 자기 상관의 경우 예측하기 쉬움 :
알려진, 알려진, 예측, 알려진, 예측 -OBB 사례
어려운 것 :
알려진, 알려진, 알려진, 예측, 예측 -실제 예측 사례

나는 그것의 흥미로운 희망

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.