곡선 아래 면적 (AUC)을 조사하기 시작했으며 그 유용성에 대해 약간 혼란스러워했습니다. 처음 나에게 설명했을 때 AUC는 성능의 척도 인 것처럼 보였지만 내 연구에서 높은 표준 정확도 측정과 낮은 AUC로 '운이 좋은'모델을 잡는 데 가장 유리하다는 점에서 장점이 거의 없다고 주장했습니다. .
모델 검증에 AUC에 의존하지 않아야합니까 아니면 조합이 가장 좋을까요? 모든 도움을 주셔서 감사합니다.
곡선 아래 면적 (AUC)을 조사하기 시작했으며 그 유용성에 대해 약간 혼란스러워했습니다. 처음 나에게 설명했을 때 AUC는 성능의 척도 인 것처럼 보였지만 내 연구에서 높은 표준 정확도 측정과 낮은 AUC로 '운이 좋은'모델을 잡는 데 가장 유리하다는 점에서 장점이 거의 없다고 주장했습니다. .
모델 검증에 AUC에 의존하지 않아야합니까 아니면 조합이 가장 좋을까요? 모든 도움을 주셔서 감사합니다.
답변:
정말 좋은 질문이며, 대부분의 사람들이 직관적 인 수준에서 이해하지 못한다는 것을 알게되었습니다. AUC
실제로 여러 가지 이유로 이진 분류의 정확도보다 선호되는 경우가 많습니다. 먼저, 정확히 무엇에 대해 이야기합시다 AUC
. 솔직히 가장 널리 사용되는 효능 측정법 중 하나이기 때문에 정확히 어떻게 AUC
작동 하는지 알아내는 것은 놀랍습니다 .
AUC
의미 Area Under the Curve
당신이 요청하는 곡선? 음, 이것이 ROC
곡선 일 것입니다. ROC
의 약자 수신기 작동 특성 실제로 약간의 비 직관적이다. 암시 적 목표는 AUC
매우 치우친 표본 분포가 있고 단일 클래스에 과도하게 적합하지 않은 상황을 처리하는 것입니다.
좋은 예는 스팸 탐지입니다. 일반적으로 스팸 데이터 세트는 스팸 또는 스팸 아님에 대해 매우 치우칩니다. 데이터 세트가 90 % 햄이라면 모든 단일 이메일이 햄이라고 말하면 좋은 정확도를 얻을 수 있습니다. 우리에게 좀 더 유용한 몇 가지 메트릭, 특히 실제 양수 비율 ( TPR
)과 위양성 비율 ( )로 시작해 보겠습니다 FPR
.
이제이 그래프에서, TPR
구체적으로 모든 양성에 대한 진 양성의 비율이며, FPR
모든 음성에 대한 거짓 양성의 비율입니다. (이것은 이진 분류만을위한 것임을 명심하십시오.) 이와 같은 그래프에서, 모든 0 또는 1의 예측이 각각 (0,0)
및 의 포인트를 초래할 것이라는 것을 이해하는 것이 매우 간단해야합니다 (1,1)
. 이 선을 통해 선을 그리면 다음과 같은 결과가 나타납니다.
어느 쪽이 기본적으로 대각선처럼 보이는데, 쉬운 지오메트리로 보면 AUC
그러한 모델이 0.5
(높이와 밑면이 모두 1 인) 것을 알 수 있습니다. 마찬가지로 0과 1의 임의 구색을 예측하는 경우 90 % 1이라고 가정하면 점을 얻을 수 (0.9, 0.9)
있습니다.이 대각선을 따라 다시 떨어집니다.
이제 흥미로운 부분이 온다. 우리가 0과 1 만 예측하지 않았다면 어떨까요? 대신 이론적으로 모든 결과가 1이고 모든 결과가 0 인 컷오프를 설정하려고한다면 어떻게해야합니까? 모두 0과 1 (각각 0과 1의 컷오프)과을 포함하는 1x1
그래프에 속하는 일련의 중간 상태를 갖습니다 ROC
. 실제로 다음과 같은 것을 얻습니다.
따라서 기본적으로 AUC
지나치게 정확도를 높일 때 실제로 얻는 것은 대표적이지만 차별적이지 않은 모델을 사용하는 사람들을 강하게 방해하는 것입니다. 정확도가 보장되지 않는 임의 확률보다 훨씬 높습니다.
AUC와 정확도는 상당히 다릅니다. AUC는 내부적으로 의사 결정 임계 값 개념이있는 이진 분류기에 적용됩니다. 예를 들어 로지스틱 회귀는 로지스틱 함수가 임계 값보다 큰지 작은 지 (일반적으로 기본적으로 0.5) 여부에 따라 양 / 음을 반환합니다. 임계 값을 선택하면 분류 기가 있습니다. 하나를 선택해야합니다.
주어진 임계 값을 선택하면 전체 데이터 세트에서 실제 양수와 음수의 비율 인 정확도를 계산할 수 있습니다.
AUC는 진정한 양의 비율 (리콜)과 위양성 비율의 트레이드 오프를 측정하므로 이미 다른 것을 측정하고 있습니다. 더 중요한 것은 AUC는 임계 값의 기능이 아닙니다. 임계 값은 가능한 모든 값에 따라 다르므로 분류기의 평가입니다. 어떤 의미에서는 분류자가 생성 한 다음 임계 값과 비교하는 내부 값의 품질을 테스트하는 더 넓은 메트릭입니다. 특정 임계 값 선택의 품질을 테스트하지 않습니다.
AUC는 다른 해석을 가지고 있으며, 이는 예를 들어 분류기의 내부 값에 따라 무작위로 선택된 긍정적 인 예가 무작위로 선택된 부정적인 예보다 순위가 높아질 확률이기도합니다.
예제에 대해서만 순위를 생성하는 알고리즘이 있더라도 AUC는 계산 가능합니다. 내부 임계 값이없는 블랙 박스 분류 기가 있으면 AUC를 계산할 수 없습니다. 이것들은 보통 두 가지 중 어느 것이 현재 문제에 이용 가능한지를 지시합니다.
AUC는 더 적은 수의 상황에 적용 할 수는 있지만보다 포괄적 인 척도라고 생각합니다. 정확도보다 엄격하게 좋지는 않습니다. 그것은 다르다. 그것은 당신이 참 긍정, 거짓 부정 등에 대해 더 관심이 있는지에 달려 있습니다.
F- 측정은 분류기 및 임계 값 설정의 기능이라는 점에서 정확도와 비슷합니다. 그러나 정밀도와 회수율 (진정 율)을 측정하는데 이는 위와 동일하지 않습니다.
성능 측정을 어떻게 선택해야하는지 언급하고 싶습니다. 그 전에 정확성과 AUC에 대한 구체적인 질문을하겠습니다.
이전에 대답했듯이, 대다수 실행을 분류 자로 사용하는 불균형 데이터 세트에서 오해의 소지가있는 정확도가 높아질 것입니다. AUC는 신뢰도 임계 값을 초과하여 집계됩니다. 좋은 결과를 얻으려면 모든 신뢰 수준에 대한 가중치 결과를 얻습니다. 나쁜 점은 일반적으로 실제로 사용할 신뢰 수준에만 관심이 있고 나머지는 관련이 없다는 것입니다.
그러나 모델에 적합한 성능 측정을 선택하는 것에 대해 언급하고 싶습니다. 모델을 목표별로 비교해야합니다. 모델의 목표는 기계 학습이나 통계 문제가 아니라 비즈니스 영역과 그 요구에 관한 문제입니다.
당신이 금을 파고 있다면 (진짜 긍정적 인 것으로부터 큰 이익을 얻는 시나리오 인 거짓 긍정적 인 것), 리콜은 좋은 척도입니다.
사람들에 대해 복잡한 의료 절차를 수행할지 여부를 결정하려는 경우 (높은 비용의 오 탐지, 희망적으로 낮은 비용의 오 탐률) 정밀도를 사용해야합니다.
사용할 수있는 방법이 많이 있습니다. 다양한 방법으로 결합 할 수도 있습니다.
그러나 보편적 인 "최상의"척도는 없습니다. 귀하의 요구에 가장 적합한 모델이 있으며,이를 최대화하면 혜택을 극대화 할 수 있습니다.