예를 들어 AUC를 사용하여 랜덤 포레스트의 품질을 평가할 때 백 아웃 샘플 또는 홀드 아웃 교차 검증 세트를 통해 이러한 수량을 계산하는 것이 더 적절합니까?
OOB 샘플을 통해 계산하면 더 비관적 인 평가를 제공하지만 그 이유는 알 수 없습니다.
예를 들어 AUC를 사용하여 랜덤 포레스트의 품질을 평가할 때 백 아웃 샘플 또는 홀드 아웃 교차 검증 세트를 통해 이러한 수량을 계산하는 것이 더 적절합니까?
OOB 샘플을 통해 계산하면 더 비관적 인 평가를 제공하지만 그 이유는 알 수 없습니다.
답변:
참고 : 내 대답은 정확하다고 생각하지만 약 30-60 분 동안이 질문을 읽은 후에만이 문제에 대해 생각 함으로써이 모든 것을 만들어 냈기 때문에 의심 스럽습니다. 그래서 당신은 회의적이고, 이것을 면밀히 조사하는 것이 좋으며, 지나치게 자신감있는 글쓰기 스타일에 속지 않아야합니다.
이것은 단지 요약 일뿐입니다. 모든 세부 사항 섹션에서 언급 및 § 2 아래.
분류의 경우를 가정 해 봅시다 (회귀로도 확장 할 수 있지만 간결함을 위해 생략). 기본적으로 우리의 목표는 나무 숲의 오류를 추정하는 것입니다. 백 오차 오류와 k- 폴드 교차 검증은 다음과 같은 가능성을 알려줍니다.
다음과 같은 확률과 같습니다.
그리고 둘 다 동일합니다. 유일한 차이점은 k- 폴드 크로스 밸리데이션과 OOBE는 서로 다른 크기의 학습 샘플을 가정한다는 것입니다. 예를 들면 다음과 같습니다.
따라서 내보기에 OOBE 숲의 오류에 대한 비관적 인 추정이다 유일한 이유는이 때문입니다 일반적으로 (10 개 주름은 일반적 임) 일반적으로 수행보다 샘플의 작은 번호로 기차 교차 검증을 K 배.
그로 인해 2 배 교차 검증은 OOBE보다 산림 오류에 대한 비관적 평가가 될 것이며 3 배 교차 검증은 OOBE와 거의 동일하게 비관적이라고 생각합니다.
RF의 각 트리는 학습 세트 X 에서 무작위로 추출 된 샘플 목록 으로 대체됩니다. 이런 식으로, n 개의 많은 샘플이 중복을 가질 수 있으며, n = | X | X 에있는 샘플 중 대략 3 분의 1 은 주어진 나무를 키우는 데 사용되는 n 개의 샘플 리스트에 포함되지 않을 가능성이 높습니다 (이것들은이 특정 트리의 비 배당 샘플입니다). 이 프로세스는 각 트리에 대해 독립적으로 반복되므로 각 트리마다 다른 세트의 가방 외부 샘플이 있습니다.
이제 다루기가 더 간단한 동등한 설명을 찾기 위해 약간 다르게 bagging에 대해 설명하겠습니다.
나는 나무 가 세트 X t ⊆ X 의 포장 샘플에 의해 훈련 되었다고 말함으로써 이것을한다 . 그러나, 세트 X t에 샘플이 중복되어 있지 않기 때문에 (정확히 작동하지는 않지만), n 개의 샘플리스트에 중복이있을 수 있습니다.
따라서 트리 말할 수 샘플을 분석하여 성장 X t 플러스 로부터 인출 임의로 선택된 복제본의 수 X에 t를 , 즉 X t , 1 , X t , 2 , ... , X t , R ⊆ X t 등을 그 :
이 집합 집합 에서 n 의 목록을 정의 할 수 있음을 아는 것은 쉽지 않습니다 에서 각 요소를 간단히 추가하여 복제본이 포함 된 많은 샘플 설정 배열에 . 이런 식으로, 1 ≤ p ≤ n 에 대해 , [ p ] ∈ C i 가되도록 적어도 하나의 i 값이 존재합니다.
그리고 주어진 분할에 대해 엔트로피가 체계적으로 변경되지 않는다고 생각하는 이유는 (결정 분할을 적용한 후) 일부 하위 집합에 특정 레이블이있는 표본의 실험적으로 측정 된 확률도 변경되지 않기 때문입니다.