분류 결과의 중요성을 테스트하는 올바른 방법은 무엇입니까


21

여러 분류기를 훈련 시키거나 여러 가지 특징 추출 방법을 사용할 수있는 상황이 많이 있습니다. 문헌에서 저자는 종종 데이터의 무작위 분할에 대한 평균 분류 오류 (즉, 이중 중첩 교차 검증 후)를 제공하고 때로는 분할에 대한 오류에 차이를 주기도합니다. 그러나 이것 자체로는 하나의 분류 기가 다른 분류기보다 훨씬 우수하다고 말할 수는 없습니다. Chi-squared 테스트, t-test, post-hoc 테스트 등을 사용하는 ANOVA를 사용하여 이에 대한 많은 다른 접근법을 보았습니다.

통계적 유의성을 결정하기 위해 어떤 방법을 사용해야합니까? 그 질문의 기초는 : 분류 점수의 분포에 대해 어떤 가정을해야합니까?


2
"나는 제곱 테스트, t- 테스트, 사후 테스트와 함께 ANOVA를 사용하여 이것에 대한 많은 다른 접근법을 보았습니다." 정말 관심이 있습니다.
jb.

1
@jb 이것에 대해 살펴보십시오 : cmpe.boun.edu.tr/~ethem/i2ml/slides/v1-1/i2ml-chap14-v1-1.pdf
Dov

답변:


8

@jb.의 탁월한 답변 외에도 동일한 테스트 세트에서 McNemar의 테스트를 사용하여 한 분류 기가 다른 분류기보다 훨씬 우수한지 확인할 수 있다고 덧붙 입니다. 이것은 분류 문제 (McNemar의 원래 작업이 "이 분적 특성"이라고 부름)에 대해서만 작동합니다. 즉, 분류자가 중간에 공간이 없어도 옳고 그름을 얻습니다.


분류 기가 통과 할 수있는 시나리오는 어떻습니까? 그 것처럼 그것은 모른다. 그래도 여전히 맥 네마의 테스트를 사용할 수 있습니까?
S0rin

5

분류 오류의 분포는 이진 분포이므로 (분류가 잘못되었거나 없음) --- Chi-squared를 사용하는 것이 합리적이지 않다고 말하고 싶습니다.

또한 동일한 데이터 세트에서 작동하는 분류기의 효율성을 비교하는 것만으로도 합리적입니다 --- '무료 점심 정리 없음'은 모든 모델이 모든 데이터 세트에 대해 동일한 평균 효율을 가지므로 어떤 모델이 더 잘 나타날지에 따라 어떤 데이터 세트가 무엇인지에 따라 달라집니다 그들을 훈련하도록 선택 http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

데이터 집합 D에 대해 모델 A와 B의 효율성을 비교하는 경우 평균 효율성 + 평균이 선택하기에 충분하다고 생각합니다.

또한 공진 가능한 효율을 가지고 있고 서로 독립적 인 모델이 많은 경우에는 최고의 모델을 선택하는 것보다 앙상블 모델을 만드는 것이 좋습니다.


그러나 단일 분류기의 경우 예를 들어 [0,1] 범위에있을 수있는 일련의 점수 (예 : 100 스플릿 이상의 MSE)로 끝납니다. 모든 단일 결과를 분석하고 분석하기에는 비용이 너무 많이 든다고 생각합니다.
tdc

예. 그러나이 경우 평균 + stddev는 다른 측정과 마찬가지로 하나가 다른 것보다 훨씬 나은지 테스트하기에 충분합니다.
jb.

2
난별로 확신이 들지 않아. Mean & stddev는 시작에 대해 가우스 성을 가정하며, 두 번째는 얼마나 많은 비교가 수행되는지 고려하지 않습니다 (예 : Bonferroni 수정 이 필요할 수 있음)
tdc

1
기본 측정 이론에서도 동일합니다. 우리가 마이크로 미터를 가지고 있고 두 개의 막대가 동일한 직경을 가지고 있는지 확인하고, 두 개의 막대를 100 회 측정하고 평균 + stddev가 겹치는 지 확인합니다. 두 경우 모두 (로드 측정 및 모델 틱) 우리는 단지 가우스 분포 결과를 가정합니다. 합리적인 논쟁 만 중앙 한계 정리 입니다.
jb.

3

Tom Dietterich의 논문 인 "감독 분류 학습 알고리즘 비교를위한 대략적인 통계 테스트"를 추천합니다. : 여기 CiteSeer의 용지의 프로필입니다 http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325은 . 요약 : "이 논문은 한 학습 알고리즘이 특정 학습 작업에서 다른 학습 알고리즘보다 성능이 우수한지 여부를 결정하기위한 5 가지 대략적인 통계 테스트를 검토합니다.이 테스트는 실험적으로 비교하여 차이가 없을 때 차이를 잘못 감지 할 확률을 결정합니다 (유형 I 오류). ...) McNemar의 테스트에서 제 1 종 오류가 낮은 것으로 나타났습니다. ... "


2

IMHO는 점수 분포와 다른 유형의 데이터 분포간에 차이가 없어야합니다. 그래서 기본적으로 체크해야하는 것은 데이터가 정규 분포 또는 표시 여부입니다 여기 . 또한이 질문을 철저히 다루는 훌륭한 책들이 있습니다 (즉, 두 분류기의 결과가 크게 다른지 여부를 테스트합니다.


나는 그들이 정상적으로 배포 되지 않을 것이라고 생각 합니다. 일반적인 경우 점수는 양수이고 범위의 한쪽 끝으로 기울어집니다 (정확도 또는 오류를 측정 값으로 사용하는지에 따라 1 또는 0).
tdc

@tdc :이 경우 함수 분포 (오 분류 수)-> (이 오 분류 수를 가진 모형의 수)는 종종 IMHO와 유사한 포아송 왜곡입니다.
jb.

@Dov : 어떤 모델이 훨씬 더 나은지 (즉 OP 질문) 테스트하고 다른지 테스트하는 것은 상당히 다릅니다.
jb.

@jb. 감사. 그러나 나는 크게 다르지 않다고 말했다 ...
Dov

@Dov 첫 번째 링크가 끊어졌습니다. 어디로 연결해야하는지 알 수 없습니다.
Tamzin Blake

2

모든 상황에 적합한 단일 테스트는 없습니다. 2011 년 Cambridge University Press의 Nathalie Japkowicz와 Mohak Shah의 "학습 알고리즘 평가"책을 추천 할 수 있습니다.이 주제에 대해 약 400 페이지의 책을 쓸 수 있다는 사실은 직접적인 문제가 아니라는 것을 암시합니다. 나는 종종 내 연구의 요구에 맞는 테스트가 없다는 것을 알았으므로 결국 사용되는 방법의 장단점을 잘 파악하는 것이 중요합니다.

일반적인 문제는 큰 데이터 세트의 경우 실질적으로 중요하지 않은 효과 크기로 통계적으로 유의 한 차이를 얻을 수 있다는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.