답변:
분류기를 한 번만 훈련하면 McNemar의 테스트를 선택했을 것입니다 . 데이비드 바버는 오히려 깔끔한 제안 베이지안 테스트 (그것은 또한 자신의에서 언급 한 나에게 오히려 우아한 보이지만 널리 사용되지 않는 책 ).
Peter Flom이 말했듯이 성능과 샘플의 크기의 차이를 보는 것만으로 대답은 거의 확실합니다.
우연히 Japkowicz와 Shah는 "학습 알고리즘 평가 : 분류 관점" 에 대한 최근 책을 읽었지만 읽지 않았지만 이러한 종류의 문제에 대한 유용한 참고 자료처럼 보입니다.
아무 것도 실행하지 않고도 그 차이가 통계적으로 매우 중요하다는 것을 알 수 있습니다. 그것은 IOTT를 통과합니다 (안구 외상 검사-눈 사이에 맞습니다).
그러나 테스트를 원한다면 두 가지 비율의 테스트로 할 수 있습니다. 이는 두 샘플 t- 테스트로 수행 할 수 있습니다.
"정확도"를 구성 요소로 세분 할 수도 있습니다. 민감도와 특이성, 또는 위양성 및 위음성. 많은 응용 프로그램에서 다른 오류의 비용은 상당히 다릅니다.
이 경우 정확도는 정확하게 분류 된 표본 의 비율 이므로 두 비율의 시스템에 관한 가설 검정을 적용 할 수 있습니다.
테스트 통계는
어디
거부 지역은
(진정 거부하는 경우
참고 문헌 :