나는 Fleiss 책을 가지고 있지 않으므로이 모든 것은 IIRC입니다.
순간 코멘트에서 @JohnMoeller의 질문에 대답 : 원래 질문은 그대로 대답 할 수 없습니다.
따라서 30 개의 샘플이 있고 각 샘플에서 c1과 c2를 테스트하고 각 샘플에 대한 정확도를 기록한다고 가정합니다.
이렇게하면 분류 자 1이 정확하고 잘못되어 분류 자 2가 정확하고 잘못되었음을 나타내는 2 x 2 우발 사태 표가 생깁니다. McNemar의 테스트 시작점은 다음과 같습니다 . 따라서 이것은 짝 지어진 비교를위한 것인데, 이것은 "독립적 인"비율을 비교하는 것보다 더 강력합니다 (동일한 유한 샘플에서 무작위로 그리는 경우 완전히 독립적이지 않습니다).
현재 McNemar의 "작은 글씨"를 찾을 수는 없지만 30 개의 샘플은 많지 않습니다. 따라서 이항 확률을 계산하는 McNemar 's에서 Fisher의 정확한 검정 (또는 다른 것) 으로 전환해야 할 수도 있습니다 .
비율의 의미 :
10 개의 테스트 사례로 하나의 동일한 분류기 10x를 테스트하든 100 개 사례로 모두 한 번 테스트하는지는 중요하지 않습니다 (2 x 2 테이블은 모든 테스트 사례를 계산합니다).
원래 질문에서 각 분류 자에 대한 10 가지 정확도 추정치가 랜덤 홀드 아웃 또는 10 배 교차 검증 또는 10x 부트 스트랩으로 얻은 경우 일반적으로 각 분류 자에 대해 계산 된 10 개의 서로 게이트 모델이 동일하다고 가정합니다 (= 정확도가 동일하므로 테스트 결과를 풀링 할 수 있습니다 *. 10 배 교차 검증의 경우 테스트 샘플 크기가 총 테스트 샘플 수와 같다고 가정합니다. 다른 방법의 경우 확실하지 않습니다. 동일한 사례를 두 번 이상 테스트 할 수 있습니다. 데이터 / 문제 / 애플리케이션에 따라 새로운 사례를 테스트하는 것만 큼 많은 정보가 없습니다.
* 대리 모델이 불안정하면이 가정이 무너집니다. 그러나이를 측정 할 수 있습니다 . 폴드 교차 검증을 반복하십시오 . 각각의 전체 실행은 각 사례에 대해 하나의 예측을 제공합니다. 따라서 여러 다른 대리 모델에 대해 동일한 테스트 사례에 대한 예측을 비교하면 일부 교육 데이터를 교환하여 발생하는 분산을 측정 할 수 있습니다. 이 분산은 유한 총 표본 크기로 인한 분산에 추가됩니다.k
반복 된 CV 결과를 하나의 사례에 해당하는 각 행과 서로 게이트 모델 중 하나에 해당하는 각 열을 가진 "정확한 분류 행렬"에 넣습니다. 이제 행을 따라 분산 (모든 빈 요소 제거)은 대리 모델의 불안정성 때문입니다. 열의 편차는이 대리 모델의 테스트에 사용한 유한 사례 수에 기인합니다. 예를 들어, 열에 테스트 된 사례 중 올바른 예측 이 있다고 가정합니다 . 정확도에 대한 점 추정치는 이며, 분산 .
유한 시험 표본 크기로 인한 분산에 비해 불안정성으로 인한 분산이 크거나 작은 지 확인하십시오.knp^=knσ2(p^)=σ2(kn)=p(1−p)n