답변:
몇 가지 가능성이 떠 오릅니다.
전체 적중률을 보는 것은 다른 클래스의 성능이 다른 경우 테스트 세트의 구성에 따라 달라 지므로 일반적으로 좋은 생각이 아닙니다. 따라서 최소한 의미있는 값을 도출하기 위해 테스트 데이터에서 클래스의 상대적 빈도를 지정하고 정당화해야합니다.
둘째, @Shorack이 이미 말했듯이 어떤 유형의 오류가 얼마나 중요한지를 지정하십시오. 종종 분류기는 유용하기 위해 특정 성능 기준을 충족해야합니다 (그리고 전체 정확도는 거의 적절한 측정 방법이 아닙니다). 민감도, 특이도, 긍정적, 부정적 예측값과 같은 다양한 등급과 다른 유형의 오 분류를 고려한 측정 값이 있습니다. 이러한 측정 값이 분류 자에 대한 다른 질문에 답변한다고 말할 수 있습니다.
이러한 질문을 통해 분류자가 유용하기 위해 필요한 사양을 공식화 할 수 있습니다.
예측 값은 분류기의 실제 적용 관점에서 종종 더 중요합니다. 분류기를 적용 할 때의 상황 인 예측에 따라 결정됩니다 (환자는 보통 검사는 병에 걸린 경우를 인식하는 것이 아니라 명시된 진단이 얼마나 정확한지 확인하는 것입니다. 그러나, 그것들을 올바르게 계산하려면 분류자가 사용되는 모집단에서 다른 클래스의 상대 빈도를 알아야합니다 (이 정보가있는 것으로 보이므로 그 것을 보지 못하는 것은 없습니다).
긍정적 또는 부정적 예측이 제공하는 정보 이득을 볼 수도 있습니다. 이것은 긍정 및 부정 가능성 비율, LR⁺ 및 LR⁻에 의해 측정됩니다. 간단히 말해서, 예측이 문제의 클래스에 대한 확률을 얼마나 변화시키는지를 알려줍니다. ( 자세한 설명은 여기 에 내 대답을 참조하십시오 )
사소한 분류기의 경우 다음과 같이 표시됩니다. "0"클래스를 해당 클래스로 사용하므로 "positive"는 클래스 "0"을 의미합니다. 100 개 사례 중 100 개가 양성으로 예측됩니다 (클래스 0에 속함). 그들 중 97 명은 실제로, 3 명은 그렇지 않습니다. 클래스 0에 대한 민감도는 100 % (실제로 클래스 0에 속하는 97 건이 모두 인식됨), 특이도는 0입니다 (다른 경우는 인식되지 않음). 양수 predicitve 값 (97 : 3 상대 주파수를 대표한다고 가정)은 97 %이며, 음의 예측 값은 음의 예측이 발생하지 않았으므로 계산할 수 없습니다.
이제 LR⁺ 및 LR⁻은 사건이 양수 클래스 ( "0")에 속할 확률을 곱하는 요인입니다. 갖는 하나 명의 LR⁺ 긍정적 인 예측이 당신에게 정보를 제공하지 않았다는 것을 의미 : 그것은 확률을 변경하지 않습니다. 따라서 여기에 사소한 분류 기가 정보를 추가하지 않는다는 사실을 명확하게 나타내는 측정 값이 있습니다 .
완전히 다른 사고 방향 : 다른 분류자를 평가하고 싶다고 언급했습니다. 분류기 비교 또는 선택과 비슷합니다. 위에서 논의한 조치에 대한주의 사항은 "단단한"클래스 레이블에서 평가할 경우 매우 불규칙한 불확실성 ( 많은 테스트 사례 가 필요함)에 영향을 받는다는 것입니다. 예측이 주로 연속적인 경우 (예 : 사후 확률) 같은 종류의 질문을 보지만 사례의 일부는 아니지만 연속적인 측정 값을 사용하는 관련 측정 값을 사용할 수 있습니다 ( 여기 참조) . 또한 예측의 작은 차이를 감지하는 데 더 적합합니다.
(@FrankHarrell은 "적절한 스코어링 규칙"이 필요하다는 것을 알려줄 것이므로이 용어는 명심해야 할 또 다른 검색어입니다.)
우선 : 모든 조회수가 똑같이 중요하고 모든 누락이 똑같이 중요합니까? 그렇다면 null 모델 점수에 아무런 문제가 없습니다. 단순히 훌륭한 솔루션입니다.
1을 예측하는 데 좋은 성능을 갖는 것이 중요하다면 대신 F- 측정을 사용할 수 있습니다. 기본적으로 고조파 리콜 평균 (실제 1의 일부가 1로 예측 됨) 및 정밀도 (예측 된 1의 일부가 실제로 1 임)입니다. 이 측정에서 모델이 높은 점수를 얻으려면 다음이 필요합니다.
그리고 동시에 두 가지를 모두 수행해야합니다. 모델이 거의 완벽한 방식으로 2 중 하나만 수행하더라도 다른 요구 사항에서 수행하지 않으면 점수가 낮습니다. https://ko.wikipedia.org/wiki/F1_score
ROC (수신기 동작 특성) http://en.wikipedia.org/wiki/Receiver_operating_characteristic 곡선 및 관련 계산 (곡선 면적 AUC)이 일반적으로 사용됩니다. 기본적으로 분류 기가 연속적인 응답을 제공한다고 생각하고 (예 : 0과 1 사이) 결정 임계 값이 0과 1 사이에서 변하기 때문에 민감도 대 잘못된 경보 비율 (1 특이성)을 플로팅합니다. 비행기?).
불균형 이 심한 데이터를 처리 할 때 Precision-Recall 곡선 은 ROC 곡선 보다 일반적인 사촌보다 훨씬 좋은 도구 입니다.
데이비스 외. 알. ROC 곡선 하에서 면적을 최적화하는 알고리즘이 PR 곡선 하에서 면적을 최적화한다고 보장되지는 않는다는 것을 보여 주었다.