감도와 특이성을 결합한 분류기 성능 측정치?


9

여러 분류자를 사용하여 분류를 수행하는 데이터로 분류 된 2 클래스가 있습니다. 그리고 데이터 세트의 균형이 잘 잡혀 있습니다. 분류 자의 성능을 평가할 때 분류자가 실제 긍정적 인 것뿐만 아니라 실제 부정적인 것을 결정하는 데 얼마나 정확한지 고려해야합니다. 따라서 정확도를 사용하고 분류자가 긍정적으로 편향되고 모든 것을 긍정적으로 분류하면 진정한 부정을 분류하지 못하더라도 약 50 %의 정확도를 얻습니다. 이 속성은 한 클래스에만 초점을 맞추고 F1- 점수에 중점을 두어 정확성과 리콜로 확장됩니다. (이것은 예를 들어 " 정확도, F- 점수 및 ROC를 넘어서 : 성능 평가를위한 판별 수단 "과 같은이 백서에서도 이해하고 있습니다 .

따라서 민감도와 특이도 (TPR 및 TNR)를 사용하여 분류자가 각 클래스에 대해 어떻게 수행되는지 확인할 수 있습니다. 여기서 이러한 값을 최대화하려고합니다.

내 질문은이 두 값을 하나의 의미있는 측정 값으로 결합하는 측정 값을 찾고 있다는 것 입니다. 나는 그 논문에 제공된 조치들을 조사했지만 그것이 사소한 것이 아니라는 것을 알았다. 그리고 내 이해를 바탕으로 F 점수와 같은 것을 적용 할 수없는 이유가 궁금했지만 정밀도와 기억을 사용하는 대신 감도와 특이성을 사용합니까? 따라서 공식은

my Performance Measure=2sensitivityspecificitysensitivity+specificity
저의 목표는이 척도를 극대화하는 것입니다. 나는 그것이 매우 대표적이라고 생각합니다. 이미 비슷한 공식이 있습니까? 그리고 이것은 말이 되나요 아니면 수학적으로 들리는 것입니까?

답변:


1

나는 당신이 고려해야 할 특정 또는 단 하나의 조치가 없을 수도 있다고 말하고 싶습니다.

마지막으로 확률 적 분류를 할 때 R 패키지 ROCR과 False Positives 및 False Negatives에 대한 명시적인 비용 값이있었습니다.

나는 0에서 1까지의 모든 컷오프 포인트를 고려했으며이 컷오프 포인트를 선택할 때 예상 비용과 같은 많은 측정 값을 사용했습니다. 물론 나는 분류 정확도의 일반적인 척도에 대한 AUC 척도를 이미 가지고있었습니다. 그러나 나에게는 이것이 유일한 가능성은 아니었다.

FP 및 FN 사례의 가치는 특정 모델을 벗어나야합니다. 일부 전문가가 제공 할 수 있습니까?

예를 들어, 고객 이탈 분석에서 고객이 이탈하지 않는다고 잘못 추론하는 것이 더 비쌀 수 있지만,이를 정확한 그룹에 타겟팅하지 않고 서비스 가격을 일반적으로 인하하는 것은 비용이 많이 듭니다.

-분석자


사실 제 경우에는 비슷합니다. FP 및 FN 사례는 내 모델에서 비용이 많이 들기 때문입니다. 결국 "여러 측정 값 사용"을 제안한 것과 비슷한 작업을 수행하게되었습니다. 각 클래스 레이블에 대해 F- 점수를 계산하고 모델을 평가하기 위해이 값과 정밀도 (두 클래스 모두에 대해)를 사용하여 FP 및 FN 사례에서 발생한 손실을 빼기 위해 정밀도를 사용하는 일부 비용 함수를 사용합니다.
Kalaji

3

분류 정확도, 민감도, 특이성 및 이들의 간단한 조합은 모두 부적절한 점수 규칙입니다. 즉, 가짜 모델에 의해 최적화됩니다. 그것들을 사용하면 잘못된 기능을 선택하고 잘못된 가중치를 부여하며 차선책을 결정할 수 있습니다. 결정이 차선책이되는 많은 방법 중 하나는 예측 된 확률이 이러한 측정 값의 사용으로 암시 된 임계 값에 가까울 때 얻는 잘못된 신뢰입니다. 요컨대, 잘못 될 수있는 모든 것은 이러한 조치로 잘못됩니다. 그것들을 사용하여 잘 맞는 두 모델을 비교해도 오해의 소지가 있습니다.


1
언급 한대로 생성 된 모델이 "가상 모델"이라는 데 동의합니다. 그러나 여전히 품질을 평가하고 궁극적으로 모델을 선택하기위한 조치가 필요합니다. 내 기능이 이미 선택되어 있고 (다른 기능 세트로 여러 데이터 세트를 시도 함), 분류자가 데이터를 과적 합하는지 여부를 판별하기 위해 5 배 교차 검증을 사용한다고 가정하면이 간단한 "점수 규칙"이 가장 문학에서 널리 사용됩니다. 그렇다면 다른 어떤 조치를 제안 하시겠습니까? 대부분의 측정 값은 LR +/-, ROC 및 AUC를 포함한 이러한 값의 조합에 의존합니다.
Kalaji

우선 5 중 cv에 사용 된 5 가지 모델 피팅 각각에 대해 모든 탐색 / 모델링 단계를 처음부터 반복해야합니까? 골드 표준 품질 측정은 다음과 같은 로그 가능성 및 수량입니다.R2이탈. 이진Y이는 로그 확률 스코어링 규칙으로 이어집니다. 이 경우 다른 적절한 점수 인 Brier 점수 (예상 확률의 평균 제곱 오차)를 사용할 수도 있습니다.
Frank Harrell

내 독서를 바탕으로 내 모델이 불연속 값이 아닌 확률을 생성하는 경우에 적용됩니다 (예 : 인스턴스가 0 또는 1을 출력하는 대신 클래스 0 또는 1에 속할 확률). 그리고 이것은 분류기 구현과 관련이 있습니다. 예를 들어 Naive Bayes 분류기에 적용되지만 1-NN 분류기에 적용되지는 않습니다. 분류기를 구현하지 않고 Weka에서 일부 분류기를 사용하여 모델을 생성합니다. 어쩌면 나는 여기에 약간 혼란 스러울 수 있습니다. 감사.
Kalaji

1
사용중인 방법으로 확률이 나오지 않으면 다른 방법을 찾는 것이 좋습니다.
Frank Harrell

실제 정밀도 비용과 감도 (원래 게시물에는 적용되지 않음) 사이에 잘 ​​이해되지 않는 차이가있는 경우 왜 그러한 사용을 피해야합니까? 편향 교차 엔트로피 오류가 바람직합니까 (예를 들어, (1-c) * log (1-p) 항의 페널티가 두 배가됩니까)?
Max Candocia 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.