나는 k- 폴드 교차 검증을 반복해서 사용했고 교차 검증의 다른 실행의 접힘에 걸쳐 총 평균으로 계산 된 평균 (예 : 감도, 특이성)을보고했습니다.
그러나 분산을 어떻게보고해야하는지 잘 모르겠습니다. 여기에서 반복 교차 검증에 대해 많은 질문을 찾았지만 반복 교차 검증 테스트에서 분산에 대한 질문에 명시 적으로 답하는 것은 없습니다.
총 편차는 1) 모델의 불안정성과 2) 제한된 샘플 크기 때문입니다.
반복 된 k- 폴드 교차 검증에 대한 분산을 계산하는 데는 4 가지 방법이 있습니다.
1) 교차 검증 실행에 대한 추정 평균 성능 메트릭 (예 : 정확도)의 분산이 유효한 분산 추정치입니까?
2) 런별 분산을 풀링하여 풀링 된 분산 (크로스 유효성 검사 테스트의 다른 부분에 대해 계산 됨).
3) 큰 벡터에서 교차 검증 실행의 다른 접힘으로부터 분류 결과를 연결하기 위해. 예를 들어, 각 접기의 테스트 데이터 수가 10이고 CV가 10 배인 경우 반복에 대한 결과 벡터의 크기는 100이됩니다. 이제 교차 유효성 검사 테스트를 10 번 반복하면 크기가 100 인 10 개의 벡터가 있으며 각각 10 배 CV 실행의 분류 결과를 포함합니다. 이제 단일 실행 CV의 경우 평균과 분산을 계산합니다.
4) 또한 분산은 외부 분산과 예상 내부 분산의 합이라는 것을 읽었습니다 ( 1의 방정식 2 및 3 ). 올바르게 이해하면 외부 분산은 반복 특정 평균 성능의 분산이고 내부 분산은 교차 검증 실행의 다른 부분에 대한 분산입니다.
교차 검증 테스트 반복에 대해보고 할 수있는 분산에 대한 귀하의 도움과 안내에 크게 감사드립니다.
감사,