분류 기가 "좋은"지 여부는 실제로
- 특정 문제에 사용할 수있는 것 분명히 분류자는 무작위 또는 순진한 추측보다 낫기를 원하지만 (예 : 가장 일반적인 범주에 속하는 것으로 모든 항목을 분류) 다른 항목보다 분류하기가 더 쉽습니다.
- 다른 실수 (거짓 경보 대 거짓 부정)의 비용과 기본 요율. 실제로는 전혀 쓸모가없는 매우 높은 정확도 (일부 테스트 샘플의 올바른 분류)를 갖는 분류기를 가질 수 있으므로 두 가지를 구별하고 결과를 해결하는 것이 매우 중요합니다 (예 : 희귀 한 질병 또는 일부를 감지하려고 함) 흔하지 않은 장난스러운 행동과 탐지시 조치를 취할 계획; 대규모 테스트에는 비용이 들며 치료 조치 / 치료에는 일반적으로 상당한 위험 / 비용이 수반되므로 비용 / 이익 측면에서 볼 때 대부분의 조회수는 오 탐지가 될 수 있다는 점을 고려하십시오. 아무것도하지 않는 것이 좋습니다).
한편으로는 리콜 / 정밀도와 다른 한편으로는 감도 / 특이성 사이의 연관성을 이해하려면 혼동 행렬로 되돌아가는 것이 유용합니다.
Condition: A Not A
Test says “A” True positive (TP) | False positive (FP)
----------------------------------
Test says “Not A” False negative (FN) | True negative (TN)
리콜은 TP / (TP + FN)이고 정밀도는 TP / (TP + FP)입니다. 이것은 문제의 본질을 반영합니다. 정보 검색에서, 가능한 많은 관련 문서를 찾고 (리콜) 정크를 분류하지 않아도됩니다 (정밀도).
동일한 표를 사용하여 기존 분류 기준은 (1) TP / (TP + FN)으로 정의 된 감도와 (2) TN / (FP + TN)으로 정의 된 특이성입니다. 따라서 리콜과 감도는 단순히 동의어이지만 정밀도와 특이도는 다르게 정의됩니다 (리콜과 감도와 같이 특이성은 열 총계에 대해 정의되는 반면 정밀도는 행 총계를 나타냄). 정밀도는 때때로 "긍정 예측 값"또는 "거짓 양성 비율"이라고도 불립니다 (그러나 거짓 양성의 정의를 둘러싼 혼란과 관련하여 진정한 긍정적, 거짓 긍정적, 거짓 부정 및 참 부정 사이의 관계에 대한 나의 답변 참조) 율).
흥미롭게도 정보 검색 지표에는 "진정한"계수가 포함되지 않습니다. 정보 검색에서 부정적인 인스턴스 자체를 올바르게 분류하는 것에 신경 쓰지 않고 너무 많은 인스턴스가 결과를 오염시키지 않기를 원할뿐입니다 ( 리콜이 참 부정을 고려하지 않는 이유 도 참조하십시오 ).
이러한 차이로 인해 추가 정보, 즉 실제 부정의 수 또는 대안으로 긍정적 및 부정적 사례의 전체 비율이 없으면 특이성에서 정밀성 또는 다른 방법으로 갈 수 없습니다. 그러나 동일한 모음 / 테스트 세트의 경우 더 높은 특이성은 항상 더 나은 정밀도를 의미하므로 밀접하게 관련됩니다.
정보 검색 컨텍스트에서 목표는 일반적으로 많은 수의 문서에서 적은 수의 일치 항목을 식별하는 것입니다. 이러한 비대칭 성 때문에, 민감도 / 호출을 일정하게 유지하면서 좋은 특이성보다 좋은 정밀도를 얻는 것이 실제로 훨씬 더 어렵다. 대부분의 문서는 관련이 없기 때문에 오 탐지가 오 탐지보다 훨씬 더 많으며 분류 기가 균형 잡힌 테스트 세트에서 인상적인 정확성을 갖더라도 이러한 오경보가 올바른 결과를 sw을 수 있습니다 (실제로 시나리오에서 진행되는 상황) 위의 포인트 2에서 언급). 결과적으로 99 % 이상과 같은 인상적인 비율조차도 수많은 오경보를 피하기에 충분하지 않기 때문에 정밀성을 최적화해야합니다.
일반적으로 감도와 특이성 (또는 리콜과 정밀성) 사이에는 상충 관계가 있습니다. 직관적으로, 더 넓은 그물을 캐스트하면 더 관련성이 높은 문서 / 긍정적 사례 (더 높은 감도 / 리콜)를 감지하지만 더 많은 잘못된 경보 (더 낮은 특이성 및 낮은 정밀도)를 얻을 수 있습니다. 긍정 범주의 모든 것을 분류하면 100 % 리콜 / 민감도, 나쁜 정밀도 및 대부분 쓸모없는 분류 기가 있습니다 ( "대부분"). 다른 정보가 없다면, 그렇지 않다고 가정하는 것이 합리적입니다. 사막에서 비가 내리고 그에 따라 행동하므로 어쩌면 결과는 쓸모가 없습니다. 물론, 정교한 모델이 필요하지는 않습니다).
이 모든 것을 고려하면 60 %의 정밀도와 95 %의 리콜은 그렇게 나쁘지는 않지만 다시 이것은 도메인 과이 분류기로 무엇을 할 것인지에 달려 있습니다.
최신 의견 / 수정에 관한 추가 정보 :
다시 말하지만, 기대할 수있는 성능은 세부 사항에 따라 다릅니다 (이 맥락에서 이것은 트레이닝 세트에 존재하는 정확한 감정 세트, 사진 / 비디오의 품질, 광도, 폐색, 머리 움직임, 행동 또는 자발적인 비디오, F1 .7 이상은 최고 데이터 모델이 일부 데이터 세트에서 더 잘 수행 할 수있는 경우에도 이러한 유형의 애플리케이션에 적합합니다 (Valstar, MF, Mehu, M., Jiang, B., Pantic, M., & Scherer, K. (2012). 최초의 표정 인식 문제에 대한 메타 분석. 시스템, 인간 및 사이버네틱스에 관한 IEEE 거래, Part B : 사이버네틱스, 42 (4), 966-979.]
이러한 모델이 실제로 유용한 지 여부는 완전히 다른 질문이며 분명히 응용 프로그램에 따라 다릅니다. 얼굴 "표현"자체는 복잡한 주제이며 일반적인 훈련 세트 (포즈 표현)에서 실제 상황으로 나아가는 것은 쉽지 않습니다. 이것은이 포럼에서 다루지 않는 주제이지만, 고려할 수있는 실제 응용 프로그램에는 심각한 결과를 초래할 것입니다.
마지막으로, 모델 간의 일대일 비교는 또 다른 질문입니다. 당신이 제시 한 숫자는 모델간에 큰 차이가 없다는 것입니다 (위에서 인용 한 논문을 참조하면이 분야에서 잘 알려진 모델의 F1 점수 범위가 훨씬 넓습니다). 실제로 기술적 인 측면 (표준 라이브러리의 단순성 / 이용률, 다양한 기술의 속도 등)은 비용 / 이익과 전체 속도가 정밀성이나 리콜을 강력하게 선호하는 경우를 제외하고는 어떤 모델이 구현 될지 결정합니다.