정확도 향상이 중요한지 확인


14

사물을 두 가지 범주로 분류하는 알고리즘이 있다고 가정합니다. 1000 가지 테스트 항목에서 알고리즘의 정확도를 측정 할 수 있습니다. 사물 중 80 %가 올바르게 분류되었다고 가정하십시오.

81 %의 것들이 올바르게 분류되도록 알고리즘을 어떻게 든 수정한다고 가정 해 봅시다.

통계가 알고리즘 개선이 통계적으로 유의한지 여부에 대해 알려줄 수 있습니까? 이 상황에서 통계적 유의성 개념이 관련되어 있습니까? 관련이있을 수있는 자료의 방향을 알려주십시오.

많은 감사합니다.

답변:


3

한마디로 그렇습니다. 통계적 유의성이 여기에 관련됩니다. 분류 오류를보고 있습니다 (또는 여기에 정확도 = 1- 분류 오류). 1000 개의 다른 샘플에서 분류자를 비교하는 경우 이항 테스트를 사용할 수 있습니다. 1000 개의 샘플과 동일한 경우 McNemar의 테스트를 사용해야합니다. 이러한 방식으로 분류 오류를 테스트하는 것은 분류 오류가 실제 클래스와 독립적이거나 실제 클래스의 비율이 잠재적 응용 프로그램에서 동일하다고 가정하기 때문에 차선책입니다.

즉, 실제 양수 비율, 위양성 비율 또는 AUC와 같은 측정 값을 살펴 봐야합니다. 사용할 측정 값과 테스트 방법은 클래식의 출력에 따라 다릅니다. 클래스 일 수도 있고 특정 클래스에 속할 확률을 제공하는 연속 숫자 일 수도 있습니다.


감사합니다. 실제로 텍스트 문서에 대한 감정 분석을보고 있는데,이를 "긍정적"또는 "부정적"으로 분류합니다. 사람들이 1 % 정확도 개선을 통해 기능 선택을 미묘한 방식으로 변경하는 많은 연구 결과가 있습니다. 이것에 관한 논문. 이러한 많은 경우에 저자가 분류 정확도의 통계적으로 유의미한 개선에 대한 증거를 제시하지 못했는지 궁금합니다.
Ben

McNemar의 테스트는 모델이 크게 다른지 여부를 알려줍니다. 이는 정확도의 차이가 항상 중요하다는 것을 의미하지는 않습니다 (다른 모델의 정확도는 동일 할 수 있음). 정확도 증가의 중요성을 직접 확인하려면 정확도 분포를 매핑하여 정확도가 다른지 추정하기 위해 많은 정확도 추정을 원합니다. 이것은 모델을 여러 번 훈련시키는 것을 의미합니다.
drevicko

3

으로 에릭이 말했다, 그래 당신은 통계적 유의성이 확인하실 수 있습니다. 그러나 확인하고 싶은 것이 무엇인지 잠시 생각하십시오. 더 흥미로운 질문은 관찰 된 1 % 차이의 데이터를 고려할 때 , "개선 된"알고리즘이 원래보다 더 나은지 (또는 의미 있는지) 더 좋은지 묻는 것 입니다. "통계적 유의성"측면에서 질문하는 것은 반대 유형의 질문으로 이어지는 경향이 있습니다. 두 알고리즘이 동일하다고 가정 할 때 적어도이 정도의 개선을 관찰 할 확률은 5 % 미만입니까?

나에게 후자의 질문은 거꾸로되어 있지만 어떻게 든 표준이되었다. 통계적 가설 검정의 논란에서 Wikipedia를 확인할 수 있습니다 . 나중에 베이지안 추론에 관심이있을 수 있습니다 . 정말로 베이지안 데이터 분석에 들어가고 싶다면 Gelman et al의 "Bayesian Data Analysis"를 확인하거나이 질문을 확인하십시오 .


2

마이클의 에릭의 대답을 적용 :

성능 측정을 선택할 때 Erik이 말하는 것과 같은 종류의 생각을 할 수 있습니다.

나는 그들이 대답하는 질문 (여기서 내가 가장 익숙한 의료 진단 언어로-하지만 당신은 텍스트를 질병으로 바꾸고 스팸으로 ;-) 대체 할 수 있음)으로 다른 조치를 언급하는 것이 도움이된다는 것을 알았습니다.

  • 민감도 : 환자가 진정으로 질병에 걸렸을 때 분류 기가이를 인식 할 가능성은 얼마나됩니까?

  • 특이성 : 환자가 진정으로 질병을 가지고 있지 않다면, 분류 기가 그것을 인식 할 가능성은 얼마나됩니까?

  • 긍정적 예측 가치 : 분류자가 환자가 병에 걸렸다 고 주장하면 환자가 실제로 질병에 걸릴 가능성은 얼마나됩니까?

  • 부정적인 예측 가치 : 분류자가 환자가 병에 걸리지 않는다고 주장하면 환자가 실제로 질병에 걸릴 가능성은 얼마나됩니까?

보시다시피, 예측 값은 의사와 환자가 실제로 관심을 갖는 것입니다. 그러나 거의 모든 사람이 민감도와 특이성으로 분류기를 특징 짓습니다. 그 이유는 예측값이 질병의 유병률을 고려해야하고, 이는 다른 종류의 환자에 따라 매우 다양 할 수 있기 때문입니다.

질문 주제에 대한 추가 정보 :

당신이 걱정하는 게 옳을 것입니다.

Erik의 두 시나리오를 모두 예로 들어 보겠습니다.

독립 테스트 샘플은 다음과 같습니다.

> binom.test (x = 810, n = 1000, p = 0.8)

    Exact binomial test

data:  810 and 1000 
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8 
95 percent confidence interval:
 0.7842863 0.8338735 
sample estimates:
probability of success 
                  0.81 

(결과가 다른 방향으로 나왔더라도 두 분류 기준이 게시되었다고 가정하면이 테스트는 양 면적입니다.)

가장 좋은 상황은 다음과 같습니다. 페어링 테스트 및 새 분류기는 이전 샘플이 올바른 모든 샘플에 적합합니다.

> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
          newclassif
oldclassif correct wrong
   correct     800     0
   wrong        10   190
> mcnemar.test (oldclassif, newclassif)

    McNemar's Chi-squared test with continuity correction

data:  oldclassif and newclassif 
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427

( 1000 개 중 10 개 이하의 샘플 이 두 분류 자에 의해 다르게 예측되는 한 , p- 값은 마법의 0.05 아래로 유지됩니다 ).

p- 값이 잘못된 질문에 대한 정답 일지라도 그것이 빡빡한 곳이라는 표시가 있습니다.

그러나 일반적인 과학 관행, 즉 알려지지 않은 (미공개) 수의 새로운 기능을 테스트하고 약간 더 잘 작동 한 기능 만 게시하면 장소가 더 빡빡 해집니다. 그리고 80 % 분류기는 약 79 % 분류 자의 후속 작업 일 수 있습니다.

독일어를 읽는 것을 좋아한다면 Beck-Bornhold와 Dubben의 멋진 책이 있습니다. 내가 정확하게 기억한다면 , Wahrscheinlichkeit grenzender Sicherheit 는 이러한 문제들에 대해 매우 훌륭한 토론을합니다. (영어판이 있는지 모르겠습니다. 제목의 문자 그대로의 번역은 "확실성에 확실하게 경계를두고 있습니다")


1

불연속적인 부적절한 점수 규칙 (민감도, 특이도, 비율이 정확하고 가짜로 분류 된 정확한 분류와 같은 정확도 점수와 같은 정확도 점수)을 사용하지 말고 대신 새 값의 부가가치에 대해 우도 비 검정 또는 부분 F 검정을 사용하십시오. 변수.

비율로 올바르게 분류 된 문제를 보는 여러 가지 방법 중 하나는 한 범주의 전체 비율이 0.9 인 경우 데이터를 무시하고 모든 관측치를 해당 범주에있는 것으로 분류하여 시간의 0.9를 정확하게 계산하는 것입니다.


2
그렇습니다. 때로는 정확성이 사용하기 어려운 척도이며 때로는 훌륭한 방법입니다. 때에 따라 다르지. 그것은 질문이 무엇인지에 대해 완전히 접하는 것처럼 보입니다. 문제는 처음에 메트릭을 선택하는 것이 아니라 알려진 메트릭에 따라 새로운 알고리즘이 더 나은지 여부를 결정하는 것입니다.
Michael McGowan

목표와 유틸리티 기능을 신중하게 설명해야한다고 생각합니다. 유틸리티 기능을 제공하지 않으려면 분류를 수행 할 때 효과적으로 가정되는 유틸리티 기능을 역으로 해결해야합니다.
Frank Harrell

익명의 downvotes가 많은 이유가 있습니까?
chl

2
@ chl 나는 질문에 실제로 대답하지 않은 것으로 다운 투표했다고 설명했다.
마이클 맥고완

@MichaelMcGowan Fair로 충분합니다.
chl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.