가방 부족 오류로 인해 임의 포리스트에서 CV가 필요하지 않습니까?

나는 임의의 숲에 상당히 익숙합니다. 과거에는, 나는 항상의 정확성을 비교 한 시험 대에 맞게 에 대한 열차 대에 맞는 어떤 overfitting을 감지 할 수 있습니다. 그러나 나는 여기서 그것을 읽었 습니다 .

"임의의 포리스트에서는 교차 검증 또는 별도의 테스트 세트가 필요하지 않으므로 테스트 세트 오류를 편견없이 추정 할 수 있습니다. 실행 중 내부적으로 추정됩니다 ..."

위의 작은 단락 은 가방 외부 (oob) 오류 추정 섹션 에서 찾을 수 있습니다 . 이 Out of Bag Error 개념은 완전히 새로운 개념이며 약간 혼란스러운 점은 모델의 OOB 오류가 35 % (또는 65 % 정확도) 인 방법이지만 데이터에 교차 검증을 적용하는 경우 (단순한 보류) 방법)과 맞는 대 테스트 대 맞는 대 기차를 비교하십시오 . 각각 65 %의 정확도와 96 %의 정확도를 얻습니다. 내 경험상 이것은 과적 합으로 간주되지만 OOB는 내 적합 대 테스트 오류 와 마찬가지로 35 % 오류를 보유합니다 . 과적 합입니까? 임의 포리스트에서 과적 합을 확인하기 위해 교차 유효성 검사를 사용해야합니까?

요컨대, 내가 맞는 vs 기차 가 내가 너무 적합 하다는 것을 나타낼 때 테스트 세트 오류의 편견없는 오류를 얻기 위해 OOB를 신뢰해야하는지 확실하지 않습니다 !

cross-validation random-forest overfitting

— jgozal
소스

하이퍼 파라미터를 결정하는 데 OOB를 사용할 수 있습니다. 그 외에는 저의 경우 모델의 성능을 추정하기 위해 교차 검증을 사용해야합니다.

— Metariat

하이퍼 파라미터에 대해 이야기 할 때 @Matemattica 정확히 무엇에 대해 이야기하고 있습니까? 이 주제에 대한 지식이 부족하여 죄송합니다

— jgozal

각 반복에서 무작위로 선택된 나무의 수와 특징

— Metariat

나는 이것이 완전히 다른 질문이라는 것을 알고 있지만 오류에서 각 반복마다 트리 수와 기능 샘플을 어떻게 결정합니까?

— jgozal

이 도움이 될 수 있음 : stats.stackexchange.com/a/112052/78313 내가 RF에서 이러한 차이를 본 적이 일반적으로!

— Metariat

답변:

과 같은 훈련 오류 predict(model, data=train)는 일반적으로 쓸모가 없습니다. 트리를 (비표준으로) 잘라 내지 않는 한, 알고리즘 설계에 의해 0보다 훨씬 클 수 없습니다 . 임의 포리스트는 의사 결정 트리의 부트 스트랩 집계를 사용하며 이는 과도하게 적합하지 않은 것으로 알려져 있습니다. 이것은 1 인접 이웃 분류기의 훈련 오류와 같습니다.
그러나이 알고리즘은 기본적으로 전체 모델 오류의 부트 스트랩 추정치 인 백 오차 오류 추정치 를 계산하는 매우 우아한 방법을 제공합니다 . 백 오차 오차는 의 예측을 집계하기위한 추정 오차입니다. $\approx \frac{1}{e}$

따라서 가방 외부 오류는 교차 유효성 검사 오류와 정확히 동일하지는 않지만 (집계를위한 트리가 적고 교육 사례 사본이 많음) 실제적인 목적으로는 충분히 가깝습니다.
과적 합을 탐지하기 위해 살펴 봐야 할 것은 가방 외부 오류와 외부 검증을 비교하는 것입니다. 그러나 데이터의 클러스터링에 대해 알지 않는 한 "간단한"교차 유효성 검사 오류는 봉지 부족 오류와 동일한 낙관적 경향이 있습니다. 분할은 매우 유사한 원리에 따라 수행됩니다.
제대로 설계된 테스트 실험을 위해이 기능을 제대로 수행 할 수 있도록 가방 밖 또는 교차 검증을 오류와 비교해야합니다.

— cbeleites는 모니카를 지원합니다
소스

백 오픈 오류는 유용하며 다른 성능 추정 프로토콜 (교차 검증과 같은)을 대체 할 수 있지만주의해서 사용해야합니다.

교차 검증과 마찬가지로, 비 가방 샘플을 사용한 성능 추정은 학습에 사용되지 않은 데이터를 사용하여 계산됩니다. 데이터가 샘플을 통해 정보를 전송하는 방식으로 처리 된 경우 추정값이 바이어스됩니다. 기억해야 할 간단한 예는 기능 선택 또는 결 측값 대치입니다. 두 경우 모두 (특히 피처 선택의 경우) 데이터는 전체 데이터 세트의 정보를 사용하여 변환되어 추정값을 바이어스합니다.

— 성 조지
소스