클래스 라벨의 100 %에 가까운 클래스가 하나의 클래스에 속하는 경우 분류기의 성능을 측정하는 방법은 무엇입니까?


9

내 데이터에는 로 표시된 클래스 변수가 있습니다. 이 클래스 변수 값은 (이진)입니다. 거의 모든 관측치 는 0입니다 (100 %에 가깝고 더 정확하게는 97 %). 다른 분류 모델에 대한 "성능"테스트를 원합니다 (정확할 수 있음). 내가 두려워하는 것은 항상 관찰을 클래스 0으로 분류하는 분류 모델이 있으면 해당 모델은 다른 변수를 고려하지 않더라도 97 % 정확하다는 것입니다.C0,1C

매우 드문 이벤트를 처리하는 데이터에 대한 분류 모델에 대해 잘 알려진 성능 테스트가 있습니까?

답변:


3

몇 가지 가능성이 떠 오릅니다.

전체 적중률을 보는 것은 다른 클래스의 성능이 다른 경우 테스트 세트의 구성에 따라 달라 지므로 일반적으로 좋은 생각이 아닙니다. 따라서 최소한 의미있는 값을 도출하기 위해 테스트 데이터에서 클래스의 상대적 빈도를 지정하고 정당화해야합니다.

둘째, @Shorack이 이미 말했듯이 어떤 유형의 오류가 얼마나 중요한지를 지정하십시오. 종종 분류기는 유용하기 위해 특정 성능 기준을 충족해야합니다 (그리고 전체 정확도는 거의 적절한 측정 방법이 아닙니다). 민감도, 특이도, 긍정적, 부정적 예측값과 같은 다양한 등급과 다른 유형의 오 분류를 고려한 측정 값이 있습니다. 이러한 측정 값이 분류 자에 대한 다른 질문에 답변한다고 말할 수 있습니다.

  • 민감도 : C 등급에 속하는 사례 중 어떤 부분이 그렇게 인정됩니까?
  • 특이성 : C 등급에 속하지 않은 사례는 다음 중 어느 정도입니까 ?
  • 양의 예측 값 : 분류자가 클래스 C를 예측하면이 예측이 정확할 확률은 얼마입니까?
  • 음의 예측 값 : 분류자가 사례가 C 등급 이 아니라고 예측하면이 예측이 정확할 확률은 얼마입니까?

이러한 질문을 통해 분류자가 유용하기 위해 필요한 사양을 공식화 할 수 있습니다.

예측 값은 분류기의 실제 적용 관점에서 종종 더 중요합니다. 분류기를 적용 할 때의 상황 인 예측에 따라 결정됩니다 (환자는 보통 검사는 병에 걸린 경우를 인식하는 것이 아니라 명시된 진단이 얼마나 정확한지 확인하는 것입니다. 그러나, 그것들을 올바르게 계산하려면 분류자가 사용되는 모집단에서 다른 클래스의 상대 빈도를 알아야합니다 (이 정보가있는 것으로 보이므로 그 것을 보지 못하는 것은 없습니다).

긍정적 또는 부정적 예측이 제공하는 정보 이득을 볼 수도 있습니다. 이것은 긍정 및 부정 가능성 비율, LR⁺ 및 LR⁻에 의해 측정됩니다. 간단히 말해서, 예측이 문제의 클래스에 대한 확률을 얼마나 변화시키는지를 알려줍니다. ( 자세한 설명은 여기내 대답을 참조하십시오 )

사소한 분류기의 경우 다음과 같이 표시됩니다. "0"클래스를 해당 클래스로 사용하므로 "positive"는 클래스 "0"을 의미합니다. 100 개 사례 중 100 개가 양성으로 예측됩니다 (클래스 0에 속함). 그들 중 97 명은 실제로, 3 명은 그렇지 않습니다. 클래스 0에 대한 민감도는 100 % (실제로 클래스 0에 속하는 97 건이 모두 인식됨), 특이도는 0입니다 (다른 경우는 인식되지 않음). 양수 predicitve 값 (97 : 3 상대 주파수를 대표한다고 가정)은 97 %이며, 음의 예측 값은 음의 예측이 발생하지 않았으므로 계산할 수 없습니다.

LR+=sensitivity1specificity=1
LR=1sensitivityspecificity=00
이제 LR⁺ 및 LR⁻은 사건이 양수 클래스 ( "0")에 속할 확률을 곱하는 요인입니다. 갖는 하나 명의 LR⁺ 긍정적 인 예측이 당신에게 정보를 제공하지 않았다는 것을 의미 : 그것은 확률을 변경하지 않습니다. 따라서 여기에 사소한 분류 기가 정보를 추가하지 않는다는 사실을 명확하게 나타내는 측정 값이 있습니다 .


완전히 다른 사고 방향 : 다른 분류자를 평가하고 싶다고 언급했습니다. 분류기 비교 또는 선택과 비슷합니다. 위에서 논의한 조치에 대한주의 사항은 "단단한"클래스 레이블에서 평가할 경우 매우 불규칙한 불확실성 ( 많은 테스트 사례 가 필요함)에 영향을 받는다는 것입니다. 예측이 주로 연속적인 경우 (예 : 사후 확률) 같은 종류의 질문을 보지만 사례의 일부는 아니지만 연속적인 측정 값을 사용하는 관련 측정 값을 사용할 수 있습니다 ( 여기 참조) . 또한 예측의 작은 차이를 감지하는 데 더 적합합니다.

(@FrankHarrell은 "적절한 스코어링 규칙"이 필요하다는 것을 알려줄 것이므로이 용어는 명심해야 할 또 다른 검색어입니다.)


3

우선 : 모든 조회수가 똑같이 중요하고 모든 누락이 똑같이 중요합니까? 그렇다면 null 모델 점수에 아무런 문제가 없습니다. 단순히 훌륭한 솔루션입니다.

1을 예측하는 데 좋은 성능을 갖는 것이 중요하다면 대신 F- 측정을 사용할 수 있습니다. 기본적으로 고조파 리콜 평균 (실제 1의 일부가 1로 예측 됨) 및 정밀도 (예측 된 1의 일부가 실제로 1 임)입니다. 이 측정에서 모델이 높은 점수를 얻으려면 다음이 필요합니다.

  1. 1의 대부분을 찾으십시오.
  2. 실제로 0 일 때 1을 자주 예측하지는 않습니다.

그리고 동시에 두 가지를 모두 수행해야합니다. 모델이 거의 완벽한 방식으로 2 중 하나만 수행하더라도 다른 요구 사항에서 수행하지 않으면 점수가 낮습니다. https://ko.wikipedia.org/wiki/F1_score


이는 예측에서 1 비트의 정보 만 사용하는 부적절한 점수 규칙입니다. 잘못된 점수 규칙은 가짜 모델에 의해 최적화됩니다.
Frank Harrell

2

@cbeleites가 문을 열게 된 것을 기쁘게 생각합니다 ... 이진 의 특수한 경우 ROC 영역과 동일한 일치 확률 또는 색인 은 예측 차별에 대한 훌륭한 요약입니다. 많은 좋은 기능 중 하나는 유병률로부터 독립되고 그것이 일치 확률과 동일하기 때문에, 정보 비율,하지만 곡선 아래의 면적 갖고 다음 ROC 곡선 자체가 높은 잉크를 갖고 에 상태 이후를 . 그것은 적절하지 않으며 (일반적인 측정 또는 가능성 비율 사용) 두 모델을 비교하기에 충분히 민감하지 않으므로 단일 모델에 대한 훌륭한 요약입니다.cYY=1YR2χ2


1

ROC (수신기 동작 특성) http://en.wikipedia.org/wiki/Receiver_operating_characteristic 곡선 및 관련 계산 (곡선 면적 AUC)이 일반적으로 사용됩니다. 기본적으로 분류 기가 연속적인 응답을 제공한다고 생각하고 (예 : 0과 1 사이) 결정 임계 값이 0과 1 사이에서 변하기 때문에 민감도 대 잘못된 경보 비율 (1 특이성)을 플로팅합니다. 비행기?).


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.