분류의 리콜 및 정밀도


40

정보 검색의 맥락에서 볼 때마다 리콜과 정밀도에 대한 정의를 읽었습니다. 누군가가 분류 맥락에서 이것을 조금 더 설명하고 몇 가지 예를 설명 할 수 있는지 궁금합니다. 예를 들어 60 %의 정밀도와 95 %의 리콜을 제공하는 이진 분류 기가 있는데, 이것이 좋은 분류기입니까?

어쩌면 내 목표를 좀 더 돕기 위해 가장 좋은 분류 기준은 무엇입니까? (데이터 집합이 불균형합니다. 대다수 클래스는 소수 클래스의 두 배에 해당합니다.)

수신자 연산자 곡선 아래의 영역으로 인해 개인적으로 5 라고 말하고 싶습니다 .

(여기서 볼 수 있듯이 모델 8은 정밀도가 낮고 리콜이 높지만 가장 낮은 AUC_ROC 중 하나는 모델이 좋거나 나쁜 모델입니까?)

여기에 이미지 설명을 입력하십시오


편집하다:

자세한 정보가있는 Excel 파일이 있습니다 : https://www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx

이 문서에서 리시버 연산자 곡선 아래 영역과 정밀 회수 곡선 아래 영역을 찾을 수 있습니다. 음모와 함께.


6
왜 부정적인 투표? 이것은 흥미로운 질문처럼 보입니다 (분명히 한 사람이 대답 할 수 있다고 생각했습니다).
갈라

성능 측정 계산에 몇 가지 테스트 사례가 포함 되었습니까? 또한 동일한 데이터 세트에서 여러 분류기를 비교하는 경우 쌍으로 된 디자인을 사용할 수 있습니다 (분류기 비교를 논의하는 이력서에 관한 몇 가지 질문과 답변이 있습니다).
cbeleites는 Monica

799 개의 샘플이 있습니다 (테스트 사례가 의미하는 경우). 매 10 개의 하위 집합으로 데이터를 분할 할 때마다 분류자를 테스트하기위한 1 개의 하위 집합과 분류자를 훈련하기위한 나머지 (비교되는 분류자는 동일한 데이터에 대해 학습 됨)
Olivier_s_j 2016 년

분류기는 이진 값을 출력합니까, 아니면 실제 값을 출력 한 다음 임계 값을 사용하여 이진으로 만드나요?
galath

이진 출력을 출력합니다.
Olivier_s_j 2016 년

답변:


40

분류 기가 "좋은"지 여부는 실제로

  1. 특정 문제에 사용할 수있는 것 분명히 분류자는 무작위 또는 순진한 추측보다 낫기를 원하지만 (예 : 가장 일반적인 범주에 속하는 것으로 모든 항목을 분류) 다른 항목보다 분류하기가 더 쉽습니다.
  2. 다른 실수 (거짓 경보 대 거짓 부정)의 비용과 기본 요율. 실제로는 전혀 쓸모가없는 매우 높은 정확도 (일부 테스트 샘플의 올바른 분류)를 갖는 분류기를 가질 수 있으므로 두 가지를 구별하고 결과를 해결하는 것이 매우 중요합니다 (예 : 희귀 한 질병 또는 일부를 감지하려고 함) 흔하지 않은 장난스러운 행동과 탐지시 조치를 취할 계획; 대규모 테스트에는 비용이 들며 치료 조치 / 치료에는 일반적으로 상당한 위험 / 비용이 수반되므로 비용 / 이익 측면에서 볼 때 대부분의 조회수는 오 탐지가 될 수 있다는 점을 고려하십시오. 아무것도하지 않는 것이 좋습니다).

한편으로는 리콜 / 정밀도와 다른 한편으로는 감도 / 특이성 사이의 연관성을 이해하려면 혼동 행렬로 되돌아가는 것이 유용합니다.

                      Condition: A             Not A

  Test says “A”       True positive (TP)   |   False positive (FP)
                      ----------------------------------
  Test says “Not A”   False negative (FN)  |    True negative (TN)

리콜은 TP / (TP + FN)이고 정밀도는 TP / (TP + FP)입니다. 이것은 문제의 본질을 반영합니다. 정보 검색에서, 가능한 많은 관련 문서를 찾고 (리콜) 정크를 분류하지 않아도됩니다 (정밀도).

동일한 표를 사용하여 기존 분류 기준은 (1) TP / (TP + FN)으로 정의 된 감도와 (2) TN / (FP + TN)으로 정의 된 특이성입니다. 따라서 리콜과 감도는 단순히 동의어이지만 정밀도와 특이도는 다르게 정의됩니다 (리콜과 감도와 같이 특이성은 열 총계에 대해 정의되는 반면 정밀도는 행 총계를 나타냄). 정밀도는 때때로 "긍정 예측 값"또는 "거짓 양성 비율"이라고도 불립니다 (그러나 거짓 양성의 정의를 둘러싼 혼란과 관련하여 진정한 긍정적, 거짓 긍정적, 거짓 부정 및 참 부정 사이의 관계에 대한 나의 답변 참조) 율).

흥미롭게도 정보 검색 지표에는 "진정한"계수가 포함되지 않습니다. 정보 검색에서 부정적인 인스턴스 자체를 올바르게 분류하는 것에 신경 쓰지 않고 너무 많은 인스턴스가 결과를 오염시키지 않기를 원할뿐입니다 ( 리콜이 참 부정을 고려하지 않는 이유 도 참조하십시오 ).

이러한 차이로 인해 추가 정보, 즉 실제 부정의 수 또는 대안으로 긍정적 및 부정적 사례의 전체 비율이 없으면 특이성에서 정밀성 또는 다른 방법으로 갈 수 없습니다. 그러나 동일한 모음 / 테스트 세트의 경우 더 높은 특이성은 항상 더 나은 정밀도를 의미하므로 밀접하게 관련됩니다.

정보 검색 컨텍스트에서 목표는 일반적으로 많은 수의 문서에서 적은 수의 일치 항목을 식별하는 것입니다. 이러한 비대칭 성 때문에, 민감도 / 호출을 일정하게 유지하면서 좋은 특이성보다 좋은 정밀도를 얻는 것이 실제로 훨씬 더 어렵다. 대부분의 문서는 관련이 없기 때문에 오 탐지가 오 탐지보다 훨씬 더 많으며 분류 기가 균형 잡힌 테스트 세트에서 인상적인 정확성을 갖더라도 이러한 오경보가 올바른 결과를 sw을 수 있습니다 (실제로 시나리오에서 진행되는 상황) 위의 포인트 2에서 언급). 결과적으로 99 % 이상과 같은 인상적인 비율조차도 수많은 오경보를 피하기에 충분하지 않기 때문에 정밀성을 최적화해야합니다.

일반적으로 감도와 특이성 (또는 리콜과 정밀성) 사이에는 상충 관계가 있습니다. 직관적으로, 더 넓은 그물을 캐스트하면 더 관련성이 높은 문서 / 긍정적 사례 (더 높은 감도 / 리콜)를 감지하지만 더 많은 잘못된 경보 (더 낮은 특이성 및 낮은 정밀도)를 얻을 수 있습니다. 긍정 범주의 모든 것을 분류하면 100 % 리콜 / 민감도, 나쁜 정밀도 및 대부분 쓸모없는 분류 기가 있습니다 ( "대부분"). 다른 정보가 없다면, 그렇지 않다고 가정하는 것이 합리적입니다. 사막에서 비가 내리고 그에 따라 행동하므로 어쩌면 결과는 쓸모가 없습니다. 물론, 정교한 모델이 필요하지는 않습니다).

이 모든 것을 고려하면 60 %의 정밀도와 95 %의 리콜은 그렇게 나쁘지는 않지만 다시 이것은 도메인 과이 분류기로 무엇을 할 것인지에 달려 있습니다.


최신 의견 / 수정에 관한 추가 정보 :

다시 말하지만, 기대할 수있는 성능은 세부 사항에 따라 다릅니다 (이 맥락에서 이것은 트레이닝 세트에 존재하는 정확한 감정 세트, 사진 / 비디오의 품질, 광도, 폐색, 머리 움직임, 행동 또는 자발적인 비디오, F1 .7 이상은 최고 데이터 모델이 일부 데이터 세트에서 더 잘 수행 할 수있는 경우에도 이러한 유형의 애플리케이션에 적합합니다 (Valstar, MF, Mehu, M., Jiang, B., Pantic, M., & Scherer, K. (2012). 최초의 표정 인식 문제에 대한 메타 분석. 시스템, 인간 및 사이버네틱스에 관한 IEEE 거래, Part B : 사이버네틱스, 42 (4), 966-979.]

이러한 모델이 실제로 유용한 지 여부는 완전히 다른 질문이며 분명히 응용 프로그램에 따라 다릅니다. 얼굴 "표현"자체는 복잡한 주제이며 일반적인 훈련 세트 (포즈 표현)에서 실제 상황으로 나아가는 것은 쉽지 않습니다. 이것은이 포럼에서 다루지 않는 주제이지만, 고려할 수있는 실제 응용 프로그램에는 심각한 결과를 초래할 것입니다.

마지막으로, 모델 간의 일대일 비교는 또 다른 질문입니다. 당신이 제시 한 숫자는 모델간에 큰 차이가 없다는 것입니다 (위에서 인용 한 논문을 참조하면이 분야에서 잘 알려진 모델의 F1 점수 범위가 훨씬 넓습니다). 실제로 기술적 인 측면 (표준 라이브러리의 단순성 / 이용률, 다양한 기술의 속도 등)은 비용 / 이익과 전체 속도가 정밀성이나 리콜을 강력하게 선호하는 경우를 제외하고는 어떤 모델이 구현 될지 결정합니다.


내 분류기는 얼굴을 긍정적이거나 부정적인 감정으로 분류합니다. 10 배 교차 검증으로 두 개의 분류 알고리즘을 실행했으며 때로는 모든 분류 자에 대한 정밀도가 거의 동일하지만 (약 65 %) 때로는 100 % 리콜을 얻습니다. 불균형 데이터 세트로 작업합니다 (주요 클래스는 소수 클래스 샘플의 두 배입니다). 따라서 이것은 아마도 내 모델이 패턴을 배우지 않았 음을 의미한다고 생각했습니다.
Olivier_s_j 2016 년

1
@ Gala : '거짓 알람'과 '거짓 부정적인'의 차이점은 무엇입니까? '거짓 경보'와 '거짓 양성'을 의미합니까?
매트 오브라이언

@ MattO'Brien 허위 경보는 위양성입니다 (예 : 시스템에 "주의!"또는 "뭔가 찾았습니다"라고 표시되어 있지만 조치를 취할 필요가 없으므로 "거짓 경보"). 어쩌면 용어가 약간 혼란 스러울 수 있습니다. 나중에 답변을 검토하겠습니다.
갈라

@Ojtwist 긍정적 인 사전 확률이 67 %라면 모든 것을 긍정적으로 예측하여 100 % 리콜 및 ~ 67 %의 정밀도를 얻을 수 있습니다.
Mark

21

이진 분류와 관련하여 예제는 긍정적이거나 부정적입니다.

  • 리콜은 "긍정적 인 예를 들어 분류자가 그것을 감지 할 것인가?"라는 질문을 다룬다.
  • 정밀도는 "분류 자로부터 긍정적 인 예측을한다면 얼마나 정확 할까?"라는 질문을 다룬다.

따라서 초점이 긍정적 인 예인지 긍정적 예측인지에 달려 있습니다.

"최소한 90 %의 리콜에서 정밀도가 가장 높은 분류기는 4"라고 말할 수 있습니다. 그러나 예측 품질이 중요한 경우, 정확도가 70 % 이상인 분류기 중에서 가장 높은 리콜을 달성하는 것은 6입니다.


6

ROC 영역 (일치 확률; c- 인덱스) 계산에 사용 된 연속 예측에서 불연속적인 부적절한 점수 규칙 (강제 선택 분류 정확도)으로 이동하면 모든 종류의 예외가 발생하고 분석가가 잘못된 예측 변수를 선택하도록 오도 할 수 있습니다. 또는 잘못된 모델입니다. 적절한 점수 규칙 (예 : 로그 우도 / 편차 / 대수 확률 점수 규칙, 브리 어 점수 (2 차 확률 정확도 점수))을 기준으로 결정하는 것이 훨씬 좋습니다. 이러한 접근 방식의 많은 장점 중에는 중급 확률로 인한 불확실성으로 인해 분류가 건강에 해로운 관측치의 식별이 있습니다.


이 점수 규칙은 모델이 확률 적 결과를 제공 할 때만 적용 할 수 있습니까?
Olivier_s_j 2016 년

3
확률 적 출력 (또는 동일한 단조 함수)이 필요한 ROC AUC를 언급했습니다. 최선의 예측 방법에는 확률이 있습니다.
Frank Harrell 2016 년

DxyY

ROC 및 비 강제 선택 분류 정확도 측정을 사용할 때의 문제점은 실제로 비즈니스 상황에 따라 임계 값을 선택해야하는 응용 프로그램 컨텍스트에서 아무 의미도 없다는 것이 아닙니다. 예를 들어, 투자 은행 업무를위한 금융 범죄 탐지 제품에서 기업은 연간 100 개의 분류를 조사 할 인력 만 보유 할 수 있으며, 이에 따라 최적화 된 고정 임계 값이 유도됩니다. Gini, ROC 영역 등은 모델이이 임계 값에 얼마나 적합한 지 알려주지 않습니다. ...
samthebest

2
조사 횟수를 예산으로 제한하는 것이 매우 합리적입니다. 여기에는 임계 값, 새로운 최적화, 분류 및 ROC 분석이 필요하지 않습니다. 관찰 된 위험의 내림차순으로 관측치를 정렬하고 조사 할 처음 100 개의 관측치를 선택합니다. 이는 마케팅에 사용되는 리프트 곡선과 관련이 있습니다.
Frank Harrell

5

어느 정밀도리콜은 전체 이야기를하고는 말과 예측, 85 %의 정밀도와 65 % 리콜에 말과 예측, 90 % 리콜 60 %의 정확도를 비교하기 어렵습니다 - 물론, 당신은,하지 않는 한 혼동 매트릭스 에서 4 개의 셀 (tp / fp / tn / fn) 각각과 관련된 비용 / 혜택 .

분류기 성능을 설명 하는 단일 숫자 ( 숙련도 , 불확실성 계수 ) 를 얻는 흥미로운 방법 은 정보 이론 을 사용 하는 것입니다 .

proficiency = I(predicted,actual) / H(actual)

즉, 실제 데이터에 존재하는 정보의 일부가 분류기에 의해 복구되었음을 알려줍니다. 정밀도 또는 재 호출이 0이면 0이고 정밀도 및 재 호출이 모두 100 % 인 경우 100 %입니다. F1 점수 와 비슷 하지만 숙련도는 정보 이론적 의미가 분명한 반면 F1은 의미가있는 두 숫자의 조화 평균입니다.

https://github.com/Magnetic/proficiency-metric에서 종이, 프리젠 테이션 및 코드 (Python)를 통해 숙련도 메트릭을 계산할 수 있습니다.


흥미로운! 숙련도 계산 방법에 대한 예를 들어 주시겠습니까? 수식이 나에게 이상하게 보이기 때문입니다.
외로운


의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.