랜덤 포레스트를 사용한 모델링에는 교차 검증이 필요합니까?


23

내가 본 한, 이것에 대한 의견은 다른 경향이 있습니다. 모범 사례는 특히 교차 검증을 사용하여 지시 할 것입니다 (특히 동일한 데이터 세트에서 다른 알고리즘과 RF를 비교하는 경우). 반면, 원본 출처는 모델 훈련 중에 OOB 오류가 계산된다는 사실이 테스트 세트 성능의 지표로 충분하다고 명시하고 있습니다. 비교적 최근의 대화에서 Trevor Hastie조차도 "임의의 숲은 무료 교차 검증을 제공합니다"라고 말합니다. 직관적으로, 하나의 데이터 세트에서 RF 기반 모델을 훈련시키고 개선하려는 경우 나에게 의미가 있습니다.

임의의 포리스트와의 교차 유효성 검사 필요성에 대해 논쟁을 제기 할 수 있습니까?


의견을 명시 적으로 찾는 질문은 일반적으로 스택 교환 사이트 datascience.stackexchange.com/help/dont-ask 에서 사용 하지 않는 것이 좋습니다. 아마도 사용자 경험을 지원하기 위해 예를 요구하도록 질문을 다시 말할 수 있습니까? 또는 한 입장에서 다른 입장에 대한 이론적 근거를 찾으십시오.
image_doctor

2
랜덤 포레스트는 다른 ML 알고리즘에 비해 적합하지 않지만 교차 검증 (또는 대안 적으로 평가 형식)을 권장합니다.
David

나는 당신이 통계 학자 SO에 그 질문을해야한다고 생각한다 : stats.stackexchange.com
Marcin Kosiński

@David를 두 번째 방법으로 사용하고 싶습니다 ... 어쨌든 교차 유효성 검사를 수행하게됩니다.

Trevor Hastie의 주장에 대한 참조를 제공해 주시겠습니까?
tipanverella

답변:


7

기본적으로 임의 포리스트는 회귀 테스트를위한 훈련 및 휴식을위한 2/3 데이터와 분류 중 테스트를위한 훈련 및 휴식을위한 거의 70 % 데이터를 선택합니다. 원칙적으로 각 트리 분할 중에 변수 선택을 무작위 화하기 때문에 과도하게 적합하지 않습니다. 그러나 sklearn에서 nfold를 사용하여 CV를 사용하려는 경우에도 oV_score (out of bag) = True와 같은 홀드 아웃 세트 개념을 사용하여 CV를 사용하거나 사용하지 않고 모델 성능을 표시 할 수 있습니다. 따라서 oob_score = True를 사용하거나 사용하지 않고 True를 사용하면 CV를 사용하는 것이 데이터에 적합한 지 알 수 있습니다. 일반적으로 대상이 특정 분포를 따르고 있고 관측 데이터가 많지 않으면 CV를 사용하면 많은 개선.


5

한 가지 중요한 차이점은 교차 검증이 모든 샘플이 교육 및 테스트 세트에 표시되도록 보장하므로 데이터의 100 %가 특정 시점에서 교육 및 테스트에 사용된다는 것입니다.

데이터 집합의 크기에 따라 임의 포리스트에서 발생하는 부트 스트랩, 교체 샘플링, 트리가 모든 인스턴스를 포함하는 분할을 보장하지는 않습니다. 포리스트에 충분한 수의 나무가있는 경우 OOB 추정치는 가장 좋은 OOB 추정값으로 무증상 수렴해야합니다.

두 방법의 정확도는 어느 정도까지 데이터에 따라 달라 지므로 사용자가 보유한 특정 데이터와 두 방법 모두를 비교하고 CV 및 RF OOB 추정치가 유사한 값을 제공하는지 확인하는 것이 현명 할 수 있습니다.

그렇지 않다면 아마도 CV에서 K의 훨씬 높은 값으로 실제 오류율에 대한 추가 추정치를 살펴볼 가치가 있습니다.


3

을 사용하여 50k 행의 데이터 세트에서 일부 테스트를 수행했습니다 sklearn.RandomForestRegressor.

나는 rf.oob_prediction_(0.2927) 또는 KFold CV (0.3 배 7 배, 0.3236 3 배 사용 여부)에 따라 메트릭에 정규화 된 gini를 사용 하고 있습니다.

따라서 "특히 동일한 데이터 세트에서 RF를 다른 알고리즘과 비교하는 경우"에 대한 요점은 OOB 예측에 의존하기보다는 수동 CV를 사용하는 것에 대한 강력한 고려 사항입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.