답변:
한마디로 그렇습니다. 통계적 유의성이 여기에 관련됩니다. 분류 오류를보고 있습니다 (또는 여기에 정확도 = 1- 분류 오류). 1000 개의 다른 샘플에서 분류자를 비교하는 경우 이항 테스트를 사용할 수 있습니다. 1000 개의 샘플과 동일한 경우 McNemar의 테스트를 사용해야합니다. 이러한 방식으로 분류 오류를 테스트하는 것은 분류 오류가 실제 클래스와 독립적이거나 실제 클래스의 비율이 잠재적 응용 프로그램에서 동일하다고 가정하기 때문에 차선책입니다.
즉, 실제 양수 비율, 위양성 비율 또는 AUC와 같은 측정 값을 살펴 봐야합니다. 사용할 측정 값과 테스트 방법은 클래식의 출력에 따라 다릅니다. 클래스 일 수도 있고 특정 클래스에 속할 확률을 제공하는 연속 숫자 일 수도 있습니다.
으로 에릭이 말했다, 그래 당신은 통계적 유의성이 확인하실 수 있습니다. 그러나 확인하고 싶은 것이 무엇인지 잠시 생각하십시오. 더 흥미로운 질문은 관찰 된 1 % 차이의 데이터를 고려할 때 , "개선 된"알고리즘이 원래보다 더 나은지 (또는 의미 있는지) 더 좋은지 묻는 것 입니다. "통계적 유의성"측면에서 질문하는 것은 반대 유형의 질문으로 이어지는 경향이 있습니다. 두 알고리즘이 동일하다고 가정 할 때 적어도이 정도의 개선을 관찰 할 확률은 5 % 미만입니까?
나에게 후자의 질문은 거꾸로되어 있지만 어떻게 든 표준이되었다. 통계적 가설 검정의 논란에서 Wikipedia를 확인할 수 있습니다 . 나중에 베이지안 추론에 관심이있을 수 있습니다 . 정말로 베이지안 데이터 분석에 들어가고 싶다면 Gelman et al의 "Bayesian Data Analysis"를 확인하거나이 질문을 확인하십시오 .
성능 측정을 선택할 때 Erik이 말하는 것과 같은 종류의 생각을 할 수 있습니다.
나는 그들이 대답하는 질문 (여기서 내가 가장 익숙한 의료 진단 언어로-하지만 당신은 텍스트를 질병으로 바꾸고 스팸으로 ;-) 대체 할 수 있음)으로 다른 조치를 언급하는 것이 도움이된다는 것을 알았습니다.
민감도 : 환자가 진정으로 질병에 걸렸을 때 분류 기가이를 인식 할 가능성은 얼마나됩니까?
특이성 : 환자가 진정으로 질병을 가지고 있지 않다면, 분류 기가 그것을 인식 할 가능성은 얼마나됩니까?
긍정적 예측 가치 : 분류자가 환자가 병에 걸렸다 고 주장하면 환자가 실제로 질병에 걸릴 가능성은 얼마나됩니까?
부정적인 예측 가치 : 분류자가 환자가 병에 걸리지 않는다고 주장하면 환자가 실제로 질병에 걸릴 가능성은 얼마나됩니까?
보시다시피, 예측 값은 의사와 환자가 실제로 관심을 갖는 것입니다. 그러나 거의 모든 사람이 민감도와 특이성으로 분류기를 특징 짓습니다. 그 이유는 예측값이 질병의 유병률을 고려해야하고, 이는 다른 종류의 환자에 따라 매우 다양 할 수 있기 때문입니다.
질문 주제에 대한 추가 정보 :
당신이 걱정하는 게 옳을 것입니다.
Erik의 두 시나리오를 모두 예로 들어 보겠습니다.
독립 테스트 샘플은 다음과 같습니다.
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(결과가 다른 방향으로 나왔더라도 두 분류 기준이 게시되었다고 가정하면이 테스트는 양 면적입니다.)
가장 좋은 상황은 다음과 같습니다. 페어링 테스트 및 새 분류기는 이전 샘플이 올바른 모든 샘플에 적합합니다.
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
( 1000 개 중 10 개 이하의 샘플 이 두 분류 자에 의해 다르게 예측되는 한 , p- 값은 마법의 0.05 아래로 유지됩니다 ).
p- 값이 잘못된 질문에 대한 정답 일지라도 그것이 빡빡한 곳이라는 표시가 있습니다.
그러나 일반적인 과학 관행, 즉 알려지지 않은 (미공개) 수의 새로운 기능을 테스트하고 약간 더 잘 작동 한 기능 만 게시하면 장소가 더 빡빡 해집니다. 그리고 80 % 분류기는 약 79 % 분류 자의 후속 작업 일 수 있습니다.
독일어를 읽는 것을 좋아한다면 Beck-Bornhold와 Dubben의 멋진 책이 있습니다. 내가 정확하게 기억한다면 , Wahrscheinlichkeit grenzender Sicherheit 는 이러한 문제들에 대해 매우 훌륭한 토론을합니다. (영어판이 있는지 모르겠습니다. 제목의 문자 그대로의 번역은 "확실성에 확실하게 경계를두고 있습니다")
불연속적인 부적절한 점수 규칙 (민감도, 특이도, 비율이 정확하고 가짜로 분류 된 정확한 분류와 같은 정확도 점수와 같은 정확도 점수)을 사용하지 말고 대신 새 값의 부가가치에 대해 우도 비 검정 또는 부분 F 검정을 사용하십시오. 변수.
비율로 올바르게 분류 된 문제를 보는 여러 가지 방법 중 하나는 한 범주의 전체 비율이 0.9 인 경우 데이터를 무시하고 모든 관측치를 해당 범주에있는 것으로 분류하여 시간의 0.9를 정확하게 계산하는 것입니다.