매우 흥미로운 질문입니다. 나는 당신이 제공 한 논문을 읽어야 할 것입니다. 그러나 아마도 이것은 대답의 방향으로 우리를 시작할 것입니다.
나는 일반적 으로이 문제를 매우 실용적인 방법으로 해결합니다. 나는 새로운 임의 분할로 k- 폴드 교차 검증을 반복하고 각 반복마다 평소와 같이 성능을 계산합니다. 그런 다음 전체 테스트 샘플은 각 반복마다 동일하며 차이는 서로 다른 데이터 분할에서 비롯됩니다.
이것은 예를 들어 관찰 된 성능 wrt의 5 ~ 95 번째 백분위 수로보고됩니다. 최대 n 까지 교환nk−1새로운 표본에 대한 표본을 모아 모형 불안정성에 대한 척도로서 논의합니다.
참고 : 어쨌든 샘플 크기가 필요한 수식을 사용할 수 없습니다. 내 데이터가 구조적으로 모여 있거나 계층 적이므로 (동일한 표본, 일반적으로 동일한 표본의 여러 [100] 다른 위치에 대해 유사하지만 반복되는 측정은 거의 없음) 효과적인 표본 크기를 모릅니다.
부트 스트랩과 비교 :
반복은 새로운 랜덤 분할을 사용합니다.
주요 차이점은 (부트 스트랩) 또는 (cv) 교체없이 리샘플링입니다.
나는 이력서의 반복에는 선택 원하는만큼 계산 비용은 거의 동일입니다 없는 부트 스트랩 반복 /, 즉 계산없이 모델의 동일한 총 케이.≈
부트 스트랩은 일부 통계적 속성 측면에서 cv에 비해 이점이 있습니다 (증상 적으로 정확합니다.
그러나 cv를 사용하면 다음과 같은 장점이 있습니다.
- 별개의 훈련 샘플의 수는 모든 모델에서 동일합니다 (학습 곡선을 계산하려는 경우 중요)
- 각 샘플은 각 반복마다 정확히 한 번 테스트됩니다.
일부 분류 방법은 반복 샘플을 폐기하므로 부트 스트랩은 의미가 없습니다.
성능 차이
짧은 대답 : 예 {0,1} 결과 만 존재하는 상황에서 차이를 말하는 것이 합리적입니다.
이항 분포 (k = 성공, n = 테스트, p = 성공 확률 = 평균 k / n)를 살펴보십시오.
σ2( k ) = n p ( 1 - p )
비율의 차이 (예 : 적중률, 오류 속도, 감도, TPR 등은, ..., 내가 사용합니다 하고 지금부터 P 시험에서 관찰 된 값) 전체 책을 채우는 주제는 ...피피^
- Fleiss : 요금 및 비율에 대한 통계적 방법
- Forthofer and Lee : Biostatistics에는 좋은 소개가 있습니다.
이제, P = K 과 따라서 :p^=kn
σ2(p^)=p(1−p)n
이는 분류기 성능을 측정하기위한 불확실성이 테스트 된 모델의 실제 성능 p 및 테스트 샘플 수에만 의존한다는 것을 의미합니다.
교차 검증에서 귀하는
k "서로 게이트"모델은 일반적으로 모든 샘플에서 빌드 한 "실제"모델과 동일한 실제 성능을 갖습니다. (이 가정의 고장은 잘 알려진 비관적 편견이다).
k "서로 게이트"모델은 동일한 실제 성능 (동일하고 안정적인 예측이 있음)을 가지므로 k 테스트 결과를 모을 수 있습니다.
물론 cv의 한 반복의 k "surrogate"모델뿐만 아니라 k-fold cv의 i 반복의 ki 모델도 풀링 할 수 있습니다.
왜 반복합니까?
반복이 알려주는 가장 중요한 것은 모델 (예측) 불안정성, 즉 동일한 표본에 대한 다른 모델의 예측 분산입니다.
p^ 다른 반복을위한 CV.
그리고 네, 이것은 중요한 정보입니다.
nbootstrapk⋅niter. cvn−1≈nσ2(p^)=p(1−p)n
이 경우 반복성을 필요로하지 않습니다 (안정성을 보여주기위한 것 이외).
pknp^n 보고는. 그러나 내 분야에서는 많은 사람들이 그것을 알고 있거나 심지어 어떤 표본 크기에 대한 불확실성이 얼마나 큰지를 직관적으로 파악하지 못합니다. 어쨌든보고하는 것이 좋습니다.
모형 불안정성을 관찰하면 합동 평균이 실제 성능을 더 잘 추정하는 것입니다. 반복 사이의 분산은 중요한 정보이며 모든 반복에서 실제 성능 평균 성능을 가진 크기 n의 테스트 세트에 대해 예상되는 최소 분산과 비교할 수 있습니다.