랜덤 포레스트를 사용한 모델링에는 교차 검증이 필요합니까?


10

내가 본 한, 이것에 대한 의견은 다른 경향이 있습니다. 모범 사례는 특히 교차 검증을 사용하여 지시 할 것입니다 (특히 동일한 데이터 세트에서 다른 알고리즘과 RF를 비교하는 경우). 반면, 원본 출처는 모델 훈련 중에 OOB 오류가 계산된다는 사실은 테스트 세트 성능의 지표로 충분하다고 명시하고 있습니다. 비교적 최근 대화에서 Trevor Hastie조차도 "임의의 숲은 무료 교차 검증을 제공합니다"라고 말합니다. 직관적으로, 하나의 데이터 세트에서 RF 기반 모델을 훈련시키고 개선하려는 경우 나에게 의미가 있습니다.

이것에 대한 당신의 의견은 무엇입니까?


3
이것은 질문의 요점을 다루지는 않지만 여전히 나무의 깊이와 같은 2 차 파라미터를 교차 검증하고 싶을 것입니다.
Wouter

훈련 세트에서 성능 측면에서 RF를 사용하거나 다른 접근 방식과 비교하거나 독립적 / 서브셋 데이터를 사용하여 성능을 테스트 할 수 있습니다. 이는 가설의 문제입니다. 결과를 더 큰 인구 집단으로 일반화하거나 RF의 속성이 아니라 현재 데이터를 분류하려고합니까?
katya

답변:


3

OOB 오류는 부트 스트랩 샘플에서이 특정 관측치가없는 트리 만 사용하여 각 관측치에 의해 계산됩니다. 이 관련 질문을 참조하십시오 . 이는 특정 부트 스트랩 샘플에서 특정 관측치의 확률이 이므로 2 배 교차 검증과 거의 같습니다. .1(11N)N1e10.6

@Wouter가 지적했듯이 매개 변수 조정을 위해 교차 유효성 검사를 수행하려고하지만 테스트 세트 오류의 추정치로 OOB 오류는 양호해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.