- fold 프로 시저 와 같이 교체 후 교체없이 모든 종류의 리샘플링을 포함하기 위해 jackknifing을 사용하는 경우, 가능한 옵션으로 간주하고
Beleites et al. : 성상 세포 조직의 라만 분광학 등급 : 소프트 참조 정보 사용. 항문 생체 화학, 2011, 400, 2801-2816k
참조 : 신뢰 구간을 교차 검증 분류 정확도
나는 여러 가지 이유로 LOO를 피하고 대신 반복 / 반복 폴드 방식을 사용합니다. 내 분야 (화학 / 분광 / 화학)에서 교차 검증은 부트 스트랩 외 검증보다 훨씬 일반적입니다. 데이터 / 일반 애플리케이션의 경우, 우리는 배 반복 폴드 교차 검증과 부트 스트랩 밖 성능 추정의 반복이 총 오류와 매우 유사한 것을 발견했습니다 [Beleites et al. : 희소 데이터 세트를 사용한 분류 오류 추정의 편차 감소. Chem.Intell.Lab.Syst., 2005, 79, 91-100.] .kiki⋅k
부트 스트랩에 비해 반복적 인 교차 검증 체계를 살펴보면 얻을 수있는 특별한 이점은 직관적으로 설명 할 수있는 안정성 / 모델 불확실성 측정을 매우 쉽게 도출 할 수 있다는 점입니다. 부트 스트랩 외 측정.
교차 검증 / 재 크니 핑을 가능하게하는 한 가지 추론은 모델의 견고성을 검토하는 것입니다. 교차 검증은 " 사례를 새로운 사례로 교체하면 모델에 어떤 영향이 있습니까?" xx또는 " 사례 를 교환하여 훈련 데이터를 교란하는 데 내 모델이 얼마나 강력 합니까?"x 이것은 부트 스트랩에도 적용되지만 직접적으로는 덜 적용됩니다.
내 데이터가 본질적으로 군집되어 있기 때문에 ( 환자 의 스펙트럼) 신뢰 구간을 도출하려고 시도 하지 않으므로 보고하는 것을 선호합니다.nsnp≪ns
평균 관측 성능과 를 표본 크기로 사용하는 (보존 적) 이항 신뢰 구간np
분산 나는 사이에 관찰 교차 검증의 반복. 접은 후에 는 서로 다른 대리 모델을 통해 각 사례를 정확히 한 번 테스트합니다. 따라서 런 사이에 관찰 된 모든 종류의 변동 은 모델 불안정성으로 인해 발생해야합니다.iki
일반적으로, 즉 모델이 제대로 설정되어 있으면 2는 1의 분산보다 훨씬 작으며 모델이 합리적으로 안정적임을 나타 내기 위해서만 필요합니다. 2. 무시할 수없는 것으로 판명되면 집계 된 모형을 고려해야합니다. 모형 집계는 모형 불안정성으로 인한 분산에만 도움이되고 유한 한 테스트 사례 수로 인한 성능 측정에서 분산 불확실성을 줄일 수 없습니다. .
이러한 데이터에 대한 성능 신뢰 구간을 구성하기 위해서는 최소한 교차 검증 의 런 사이에 관측 된 분산 이 해당 불안정성 의 모델의 평균 이라는 것을 고려해야합니다. 즉, 모델 불안정성 분산이라고합니다. 인 교차 검증 실행 사이의 관측 된 차이는; 유한 한 사례 번호로 인한 더하기 분산-분류 (적중 / 오류) 성능 측정의 경우 이항입니다. 연속 측정을 위해, 나는 교차 검증 실행 분산, 내에서 분산을 유도하기 위해 노력하겠다고 와의 불안정 형 분산의 추정 으로부터 파생 모델ikk⋅kk
교차 검증 의 장점은 모델 불안정성으로 인한 불확실성과 유한 한 수의 테스트 사례로 인한 불확실성을 명확하게 분리 할 수 있다는 것입니다. 그에 따른 단점 은 물론 유한 한 수의 실제 사례를 고려하지 않으면 실제 불확실성을 심각하게 과소 평가한다는 것입니다. 그러나 이것은 부트 스트래핑에서도 발생합니다.
지금까지 추론은 주어진 데이터 세트에 대해 도출 한 모델의 성능 측정에 중점을 둡니다 . 당신이 생각하는 경우 주어진 응용 프로그램과 주어진 샘플 크기의 데이터 세트를 근본적으로 검증을 리샘플링에 의해 측정 할 수없는 차이로 세 번째 기여가, 예를 들어, 참조 의 분산 없음 편견 견적 크로스 K-접어 : Bengio & Grandvalet가 -Validation, 기계 학습 연구 저널, 5, 1089-1105 (2004). 또한 Beleites et al. : 분류 모델의 표본 크기 계획, Anal Chim Acta, 760, 25-33 (2013). DOI : 10.1016 / j.aca.2012.11.007 )
여기서 발생하는 것은 리샘플링이 완전히 새로운 샘플을 분해하는 것과 유사하다는 가정의 결과라고 생각합니다.
이는 애플리케이션을위한 특정 모델을 구성하고이 모델을 검증하기보다는 모델 구축 알고리즘 / 전략 / 휴리스틱을 비교할 경우 중요합니다.