예를 들어 AUC를 사용하여 랜덤 포레스트의 품질을 평가할 때 백 아웃 샘플 또는 홀드 아웃 교차 검증 세트를 통해 이러한 수량을 계산하는 것이 더 적절합니까?

OOB 샘플을 통해 계산하면 더 비관적 인 평가를 제공하지만 그 이유는 알 수 없습니다.

cross-validation random-forest auc

— 사용자 695652
소스

참고 : 내 대답은 정확하다고 생각하지만 약 30-60 분 동안이 질문을 읽은 후에만이 문제에 대해 생각 함으로써이 모든 것을 만들어 냈기 때문에 의심 스럽습니다. 그래서 당신은 회의적이고, 이것을 면밀히 조사하는 것이 좋으며, 지나치게 자신감있는 글쓰기 스타일에 속지 않아야합니다.

요약

이것은 단지 요약 일뿐입니다. 모든 세부 사항 섹션에서 언급 및 아래. $\S1$ $\S2$

분류의 경우를 가정 해 봅시다 (회귀로도 확장 할 수 있지만 간결함을 위해 생략). 기본적으로 우리의 목표는 나무 숲의 오류를 추정하는 것입니다. 백 오차 오류와 k- 폴드 교차 검증은 다음과 같은 가능성을 알려줍니다.

포리스트는 올바른 분류를 제공합니다 (k- 폴드 교차 유효성 검사는이 방식으로 봅니다).

다음과 같은 확률과 같습니다.

산림 나무의 대다수 투표는 올바른 투표입니다 (OOBE는이 방법으로 봅니다).

그리고 둘 다 동일합니다. 유일한 차이점은 k- 폴드 크로스 밸리데이션과 OOBE는 서로 다른 크기의 학습 샘플을 가정한다는 것입니다. 예를 들면 다음과 같습니다.

10 배 교차 검증에서 학습 세트는 90 %이고 테스트 세트는 10 %입니다.
그러나 OOBE에서 각 백에 샘플 이있는 경우 전체 샘플 세트의 총 샘플 수인 경우 학습 세트가 실제로 약 66 % (2/3)이고 테스트 세트가 약 33 % ( 삼분의 일). $n$ $n =$

따라서 내보기에 OOBE 숲의 오류에 대한 비관적 인 추정이다 유일한 이유는이 때문입니다 일반적으로 (10 개 주름은 일반적 임) 일반적으로 수행보다 샘플의 작은 번호로 기차 교차 검증을 K 배.

그로 인해 2 배 교차 검증은 OOBE보다 산림 오류에 대한 비관적 평가가 될 것이며 3 배 교차 검증은 OOBE와 거의 동일하게 비관적이라고 생각합니다.

1. 가방 외부 오류 이해

1.1 포장에 대한 일반적인 견해

RF의 각 트리는 학습 세트 에서 무작위로 추출 된 샘플 목록 으로 대체됩니다. 이런 식으로, 많은 샘플이 중복을 가질 수 있으며, 에있는 샘플 중 대략 3 분의 1 은 주어진 나무를 키우는 데 사용되는 샘플 리스트에 포함되지 않을 가능성이 높습니다 (이것들은이 특정 트리의 비 배당 샘플입니다). 이 프로세스는 각 트리에 대해 독립적으로 반복되므로 각 트리마다 다른 세트의 가방 외부 샘플이 있습니다. $n$ $\mathcal{X}$ $n$ $n = |\mathcal{X}|$ $\mathcal{X}$ $n$

1.2. 포장에 대한 또 다른 견해

이제 다루기가 더 간단한 동등한 설명을 찾기 위해 약간 다르게 bagging에 대해 설명하겠습니다.

나는 나무 가 세트 의 포장 샘플에 의해 훈련 되었다고 말함으로써 이것을한다 . 그러나, 세트 샘플이 중복되어 있지 않기 때문에 (정확히 작동하지는 않지만), 샘플리스트에 중복이있을 수 있습니다. $t$ $\mathcal{X}_t \subseteq \mathcal{X}$ $\mathcal{X}_t$ $n$

따라서 트리 말할 수 샘플을 분석하여 성장 플러스 로부터 인출 임의로 선택된 복제본의 수 , 즉 $t$ $\mathcal{X}_t$ $\mathcal{X}_t$ $\mathcal{X}_{t,1}, \mathcal{X}_{t,2}, \ldots, \mathcal{X}_{t,r} \subseteq \mathcal{X}_t$ 등을 그 :

| X_{t} | + \sum_{i = 1}^{r} | X_{t, i} | = n

$\begin{equation} |\mathcal{X}_t| + \sum_{i=1}^r|\mathcal{X}_{t,i}| = n \end{equation}$

이 집합 집합 에서 의 목록을 정의 할 수 있음을 아는 것은 쉽지 않습니다 $\mathcal{C} = \{\mathcal{X}_t, \mathcal{X}_{t,1}, \ldots, \mathcal{X}_{t,r}\}$ $n$ 에서 각 요소를 간단히 추가하여 복제본이 포함 된 많은 샘플 설정 배열에 . 이런 식으로, 에 대해 가되도록 적어도 하나의 값이 존재합니다 $\mathcal{C}_i \in \mathcal{C}$ $a$ $1 \le p \le n$ $i$ $a[p] \in \mathcal{C}_i$ .

$n$ $a$ $\mathcal{X}_t$ $\S2$ $a$

1.3. 간편해진 포장

$t$ $a$ $\mathcal{X}_t$

$n$ $t$ $\mathcal{X}_t$ $t'$ $a$

$\mathcal{X}_t$

그리고 주어진 분할에 대해 엔트로피가 체계적으로 변경되지 않는다고 생각하는 이유는 (결정 분할을 적용한 후) 일부 하위 집합에 특정 레이블이있는 표본의 실험적으로 측정 된 확률도 변경되지 않기 때문입니다.

$\mathcal{X}_t$ $d$

1.4 가방 외부 오류 측정

$\mathcal{O}_t$ $t$ $\mathcal{O}_t = \mathcal{X} \setminus \mathcal{X}_t$ $t$

\frac{total x in O_{t} correctly classified by t}{| O_{t} |}

$\begin{equation} \frac{\text{total $\mathbf{x}$ in $\mathcal{O}_t$ correctly classified by $t$}}{|\mathcal{O}_t|} \end{equation}$

n_{t}

$n_t$

\frac{\sum_{t = 1}^{n_{t}} total x in O_{t} correctly classified by t}{\sum_{t = 1}^{n_{t}} | O_{t} |}

$\begin{equation} \frac{\sum_{t=1}^{n_t} \text{total $\mathbf{x}$ in $\mathcal{O}_t$ correctly classified by $t$}}{\sum_{t=1}^{n_t}|\mathcal{O}_t|} \end{equation}$

2. k- 폴드 교차 검증 이해

$\mathcal{X}$ $n_k$ $\mathcal{K} = \{\mathcal{K}_1, \mathcal{K}_2, \ldots, \mathcal{K}_{n_k}\}$ $\mathcal{K}_1 \cup \mathcal{K}_2 \cup \ldots \cup \mathcal{K}_{n_k} = \mathcal{X}$ $\mathcal{K}_i, \mathcal{K}_j \in \mathcal{K}$ $\mathcal{K}_i \cap \mathcal{K}_j = \emptyset$

$\mathcal{K}_t$ $\mathcal{K} \setminus \{\mathcal{K}_t\}$

$f$ $\mathcal{K} \setminus \{\mathcal{K}_t\}$

$f$

\frac{\sum_{t = 1}^{n_{k}} total x in K_{t} correctly classified by f}{\sum_{t = 1}^{n_{k}} | K_{t} |}

$\begin{equation} \frac{\sum_{t=1}^{n_k} \text{total $\mathbf{x}$ in $\mathcal{K}_t$ correctly classified by $f$}}{\sum_{t=1}^{n_k} |\mathcal{K}_t|} \end{equation}$

$f$

— 동굴 탐험가
소스

랜덤 포레스트 평가 : OOB 대 CV

요약