t- 검정으로 통계적 유의성을 위해 두 분류기 정확도 결과 비교


17

통계적으로 유의미한 두 분류기의 정확도를 비교하고 싶습니다. 두 분류기는 모두 동일한 데이터 세트에서 실행됩니다. 이것은 내가 읽은 것에서 하나의 샘플 t- 검정을 사용해야한다고 생각하게합니다 .

예를 들면 다음과 같습니다.

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

이것이 올바른 테스트입니까? 그렇다면 분류기 간의 정확도 차이가 중요한지 어떻게 계산합니까?

아니면 다른 테스트를 사용해야합니까?

답변:


14

분류기를 한 번만 훈련하면 McNemar의 테스트를 선택했을 것입니다 . 데이비드 바버는 오히려 깔끔한 제안 베이지안 테스트 (그것은 또한 자신의에서 언급 한 나에게 오히려 우아한 보이지만 널리 사용되지 않는 ).

Peter Flom이 말했듯이 성능과 샘플의 크기의 차이를 보는 것만으로 대답은 거의 확실합니다.

우연히 Japkowicz와 Shah는 "학습 알고리즘 평가 : 분류 관점" 에 대한 최근 책을 읽었지만 읽지 않았지만 이러한 종류의 문제에 대한 유용한 참고 자료처럼 보입니다.


1
이 결과를 얻으려면 10 배 교차 검증을 실행하고 있습니다. 이는 실제로 다른 데이터 세트라는 의미입니다. 교차 검증에서 테스트 / 트레인으로 분할 된 전체 크기입니다.
Chris

4
각 접힘의 정확도는 독립적이지 않으므로 대부분의 통계 테스트의 가정을 위반하지만 큰 문제는 아닙니다. 나는 종종 100 개의 무작위 훈련 / 시험 분할을 사용하고 Wilcoxon paired signed rank test를 사용합니다 (두 분류 자에 대해 동일한 무작위 분할을 사용하십시오). 나는 종종 작은 데이터 세트를 사용하기 때문에 (과적 합에 관심이있는) 일종의 테스트를 선호하므로 무작위 분할 사이의 가변성은 분류기 간의 성능 차이와 비교되는 경향이 있습니다.
Dikran Marsupial

2
(+1) Wilcoxon paired signed rank test (그리고 책에 대한 링크 ... toc가 약속을 이행 할 수 있다면이 책은 반드시 모든 ML을 읽을 수 있어야합니다 : O)
steffen

3
또한 분류자를 비교하기 위해 부호있는 순위 테스트와 쌍을 이루는 t- 테스트를 사용했습니다. 그러나이 목적으로 단면 테스트를 사용하여보고 할 때마다 검토 자로부터 어려움을 겪고 있으므로 양면 테스트 사용으로 되돌아갔습니다!
BGreene

2
OP가이 질문이 실제로 교차 검증에 관한 것이라는 의견에 명확하게 언급되어 있다면 해당 주제를 다루기 위해 답변을 확장하는 것을 고려할 것입니까? 그러면 Q를 편집 할 수 있습니다. 이것은 중요한 주제이며 매우 관련된 (또는 중복 된) 몇 가지 질문이 있지만 좋은 대답은 없습니다. 위의 의견에서 CV 추정값에 대해 쌍으로 된 테스트를 사용하는 것이 좋으며 여기에서 비 독립성이 큰 문제라고 생각하지 않는다고 말합니다. 왜 안돼? 잠재적으로 큰 문제인 것 같습니다.
amoeba는

4

아무 것도 실행하지 않고도 그 차이가 통계적으로 매우 중요하다는 것을 알 수 있습니다. 그것은 IOTT를 통과합니다 (안구 외상 검사-눈 사이에 맞습니다).

그러나 테스트를 원한다면 두 가지 비율의 테스트로 할 수 있습니다. 이는 두 샘플 t- 테스트로 수행 할 수 있습니다.

"정확도"를 구성 요소로 세분 할 수도 있습니다. 민감도와 특이성, 또는 위양성 및 위음성. 많은 응용 프로그램에서 다른 오류의 비용은 상당히 다릅니다.


동의-이것은 분명히 중요합니다. Nitpick : 검정을 사용하여 두 비율을 테스트합니다 (대략). 이것은 n이 증가함에 따라 이항 분포가 법선으로 수렴하는 것과 관련 이 있습니다. 섹션 5.2 en.wikipedia.org/wiki/Statistical_hypothesis_testingzn
Macro

다시 생각하면, -test는 CLT에 의해 여전히 비대칭 적으로 유효 할 수 있지만, 여기서 z -test가 일반적으로 사용되는 이유가 있습니다. tz
매크로

2
내 질문에 넣은 정확도 비율은 예일뿐입니다.
Chris

0

이 경우 정확도는 정확하게 분류 된 표본 의 비율 이므로 두 비율의 시스템에 관한 가설 검정을 적용 할 수 있습니다.

p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

테스트 통계는

Z=p^1p^22p^(1p^)/n 어디 p^=(x1+x2)/2n

p2p1

  • H0:p1=p2 (둘 다 같다는 귀무 가설)
  • Ha:p1<p2 (새로운 것이 기존의 것보다 낫다고 주장하는 대안 적 가설)

거부 지역은

Z<zα (진정 거부하는 경우 H0Ha

zααz0.5=1.645Z<1.6451α

참고 문헌 :

  1. R. Johnson과 J. Freund, Miller와 Freund의 엔지니어 확률 및 통계, 8th Ed. Prentice Hall International, 2011. (1 차 자료)
  2. 가설 간결한 공식 요약 테스트 . ([1]에서 채택)

하지 말아야 할 것 p^p^1p^2 ? 따라서 분모는 2n이어야합니다p^=(x1+x2)/2n

비율에 대한 테스트를 사용할 수 있다는 데 동의하지만 원래의 질문에는 단측 테스트가 적합하다는 제안이 없습니다. 또한 "우리는 95 %의 확신을 가지고 말할 수있다" 는 일반적인 오해입니다. 여기 예를 들어, 참조 : metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
프랑스어 Rodenburg

@ShivaTp 실제로. 많은 오타 수정을 지적 해 주셔서 감사합니다. 편집이 확인되었습니다.
Ébe Isaac
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.