나는 랜덤 포레스트에 대해 읽었지만 실제로 초과 피팅 문제에 대한 결정적인 대답을 찾을 수 없습니다. Breiman의 최초 논문에 따르면, 그들은 숲에서 나무의 수를 늘릴 때 과적 합해서는 안되지만 이것에 대해 합의가없는 것으로 보입니다. 이로 인해 문제에 대해 약간의 혼란이 생깁니다.
나보다 더 전문가 인 사람이 좀 더 구체적으로 대답하거나 문제를 더 잘 이해할 수 있도록 올바른 방향으로 안내 할 수 있습니다.
나는 랜덤 포레스트에 대해 읽었지만 실제로 초과 피팅 문제에 대한 결정적인 대답을 찾을 수 없습니다. Breiman의 최초 논문에 따르면, 그들은 숲에서 나무의 수를 늘릴 때 과적 합해서는 안되지만 이것에 대해 합의가없는 것으로 보입니다. 이로 인해 문제에 대해 약간의 혼란이 생깁니다.
나보다 더 전문가 인 사람이 좀 더 구체적으로 대답하거나 문제를 더 잘 이해할 수 있도록 올바른 방향으로 안내 할 수 있습니다.
답변:
복잡도가 높은 모든 ML 알고리즘은 초과 적합 할 수 있습니다. 그러나 OP는 포리스트의 트리 수를 늘릴 때 RF가 과적 합하지 않는지 묻고 있습니다.
일반적으로 앙상블 방법은 예측 분산을 거의 아무것도 줄이지 않아 앙상블의 정확도를 향상시킵니다. 개별 무작위 모델의 예상되는 일반화 오차의 분산을 다음과 같이 정의하면 :
에서 여기 에 앙상블 대응의 예상 일반화 오류의 분산 :
여기서 p(x)
두 개의 독립적 인 시드에서 동일한 데이터로 학습 된 두 개의 무작위 모델 예측 간의 피어슨 상관 계수는 RF에서 DT의 수를 크게 늘리면 M
앙상블의 분산이 감소 ρ(x)<1
합니다. 따라서 앙상블의 분산은 개별 모델의 분산보다 엄격하게 작습니다.
요컨대, 앙상블에서 개별 무작위 모델의 수를 늘리면 일반화 오류가 증가하지 않습니다.
기계 학습을 포함하여 여러 가지에 대한 stachexchange 웹 사이트 인 교차 유효성 검사 를 확인할 수 있습니다 .
특히,이 질문 (정확히 동일한 제목)은 이미 여러 차례 답변되었습니다. 다음 링크를 확인하십시오. /stats//search?q=random+forest+overfit
그러나 나는 그것에 대해 짧은 대답을 줄 수 있습니다 : 그렇습니다. 숲을 짓기. 예를 randomForest
들어 R에서는 복잡도 만 제어 할 수 있습니다
매우 간단한 실험을했습니다. 합성 데이터를 생성했습니다.
y = 10 * x + noise
나는 두 개의 랜덤 포레스트 모델을 훈련 시켰습니다 :
전체 나무가있는 모델은 가지 치기 된 나무가있는 모델보다 열차 오류는 적지 만 테스트 오류는 높습니다. 두 모델의 응답 :
과적 합의 명백한 증거입니다. 그런 다음 초과 적합 모델의 하이퍼 매개 변수를 사용하여 각 1 단계 트리를 추가하는 동안 오류를 확인했습니다. 나는 다음 줄거리를 얻었다 :
보다 많은 수의 나무를 추가 할 때 과적 합 오류가 변하지 않지만 모형이 과적 합되었음을 알 수 있습니다. 여기 내가 만든 실험에 대한 링크 가 있습니다.
구조화 된 데이터 세트-> 잘못된 OOB 오류
제 업무에서 RF 과적 합의 흥미로운 사례를 발견했습니다. 데이터가 OOB 관찰에 RF 과적 합 된 경우.
세부 사항 :
나는 매 시간마다 전기 현물 시장에서 전기 가격을 예측하려고합니다 (각 데이터 세트 행에는 해당 단일 시간에 대한 가격 및 시스템 매개 변수 (부하, 용량 등)가 포함되어 있습니다).
전기 가격은 일괄 적으로 생성됩니다 (한 순간에 한 번의 고정으로 전기 시장에서 24 개의 가격이 생성됨).
따라서 각 트리에 대한 OOB obs는 시간 집합의 임의의 하위 집합이지만 다음 24 시간을 예측하면 한 번에 모두 수행합니다 (처음에 모든 시스템 매개 변수를 얻은 다음 24 개의 가격을 예측하면 고정이 있음) 그 가격), 그래서 OOB 예측을 쉽게하고 다음날 전체를 위해. OOB obs는 24 시간 블록에 포함되어 있지 않지만 예측 오류의 자기 상관이 있기 때문에 단일 시간에 대한 가격을 예측하기가 더 빠르고 누락 된 시간의 전체 블록에 대해 가격을 예측하기가 쉽기 때문에 균일하게 분산됩니다.
오류 자기 상관의 경우 예측하기 쉬움 :
알려진, 알려진, 예측, 알려진, 예측 -OBB 사례
어려운 것 :
알려진, 알려진, 알려진, 예측, 예측 -실제 예측 사례
나는 그것의 흥미로운 희망