ROC 곡선 아래 면적 대 전체 정확도


29

ROC의 AUC (Area Under Curve)와 전체 정확도에 대해 약간 혼란 스럽습니다.

  1. AUC가 전체 정확도에 비례합니까? 다시 말해, 전체 정확도가 클 때 AUC가 커질까요? 또는 정의상 양의 상관 관계가 있습니까?

  2. 그것들이 양의 상관 관계에있는 경우, 왜 우리는 일부 출판물에서 두 가지를 모두보고해야 하는가?

  3. 실제로 분류 작업을 수행 한 결과는 다음과 같습니다. 분류기 A의 정확도는 85 %이고 AUC는 0.98이고 분류 자 ​​B의 정확도는 93 %이고 AUC는 0.92입니다. 질문은 어떤 분류 기가 더 낫습니까? 아니면 이와 비슷한 결과를 얻을 수 있습니까 (제 구현에 버그가있을 수 있음을 의미합니까)?


1
나는 당신에게 관심을 가질만한 종이를 발견했다. google.co.uk/…
Samo Jerom

우리가 정확성에 있지 않은 동안 AUC 측정에서 오 탐지율을 계산하기 때문에 AUC가 전체 정확도보다 낮아서는 안됩니까 ???
알리 술탄

클래스의 크기가 다른 경우 ROC AUC가 유용합니다. 99 %의 물체가 양성이면 랜덤 샘플링으로 99 %의 정확도를 얻을 수 있습니다. 그러면 ROC AUC 값이 훨씬 더 의미가 있습니다.
Anony-Mousse 2014

답변:


26

AUC (ROC 기반)와 전체 정확도는 같은 개념이 아닌 것 같습니다.

전체 정확도는 하나의 특정 컷 포인트를 기반으로하는 반면 ROC는 모든 컷 포인트를 시도하고 감도와 특이성을 플로팅합니다. 전체 정확도를 비교할 때 일부 컷 포인트를 기준으로 정확도를 비교합니다. 전체 정확도는 컷 포인트마다 다릅니다.


2
답장을 보내 주셔서 대단히 감사합니다! 전반적인 정확도는 특정 컷 포인트 (또는 임계 값)에서 얻습니다. 그러나 가장 좋은 컷 포인트, 즉 왼쪽 상단에 가장 가까운 컷 포인트가 있습니다. 예를 들어, 전반적인 정확도는이 최고 컷오프 포인트를 사용하여 계산되며 AUC는 모든 다른 컷 포인트에 대한 것입니다. 그렇다면이 정확도와 AUC를 어떻게 해석합니까? 예를 들어 위에서 언급 한 두 분류기의 성능입니다.
Samo Jerom

3
아, 알겠습니다 최고의 전체 정확도와 AUC를 비교하고 있습니다. 그러나 그들은 여전히 ​​다른 개념입니다. AUC는 P (예측 된 TRUE | 실제 TRUE) 대 P (FALSE | FALSE)이며 전체 정확도는 P = P (TRUE | TRUE) * P (실제 TRUE) + P (FALSE | FALSE) * P ( 실제 거짓). 따라서 이것은 데이터 세트의 실제 값 비율에 크게 좌우됩니다. 실제로, 컷 포인트가 P (실제 TRUE) 근처에있을 때 일반적으로 최상의 전체 정확도가 달성되는 것으로 보입니다.
Vincent

따라서 데이터 세트의 실제 값 비율에 따라 AUC와 최상의 전체 정확도가 일치하지 않을 수 있습니다. 귀하의 경우 분류기 중 하나가 민감도에 더 초점을 맞추고 다른 하나는 특이성에 초점을 맞추는 것 같습니다. 현재 데이터 세트에서 P (TRUE)는 50 %가 아닙니다. 따라서 민감도와 특이도는 가중치에 따라 전체 정확도에 기여합니다. 실제로 ROC는 우리에게 더 많은 정보를 제공 할 수 있으며 사례별로 클래스를 선택하고 싶습니다. 예를 들어, 스팸 분류기는 중요한 이메일 누락을 방지하기 위해 P (스팸 아님)가 아닌 P (스팸 아님)에 더 집중할 수 있습니다.
Vincent

답변 주셔서 감사합니다. 지금 훨씬 더 명확합니다. 그러나 누군가 더 논의하고 싶다면 여기에 게시하십시오.
Samo Jerom

27

두 통계 척도는 서로 관련이있을 수 있지만 분류기의 다른 특성을 측정합니다.

아우 로크

곡선 아래의 면적 (AUC)은 분류자가 무작위로 선택된 양성 사례보다 무작위로 선택된 양성 사례의 순위를 매길 확률과 같습니다. 패턴을 양의 클래스에 속하는 정도에 따라 패턴 세트의 순위를 매기 는 클래스의 스킬을 측정 하지만 실제로 클래스에 패턴을 지정하지는 않습니다.

전반적인 정확도는 또한 분류자가 패턴의 순위를 매기는 능력에 따라 달라 지지만, 임계 값보다 높은 경우 패턴을 양의 클래스에 할당하는 데 사용되는 순위에서 임계 값을 선택하는 능력에 따라 달라지며 아래의 경우 음의 클래스에 패턴을 지정합니다.

따라서 AUROC 통계가 더 높은 분류기 (모든 것이 동일 함)는 패턴 순위 (AUROC가 측정)가 AUROC 및 전체 정확도 모두에 유리하기 때문에 전체 정확도가 더 높아질 수 있습니다. 그러나 하나의 분류 기가 패턴의 순위를 매기지만 임계 값을 잘못 선택하면 AUROC는 높지만 전체 정확도는 떨어질 수 있습니다.

실용

실제로, 나는 전체 정확도, AUROC 및 분류자가 클래스 멤버십의 확률, 교차 엔트로피 또는 예측 정보를 추정하는 것을 좋아합니다. 그런 다음 하드 분류를 수행 할 수있는 원시 능력을 측정하는 메트릭이 있습니다 (가양 성 및 오 음성 오 분류 비용이 동일하고 샘플의 클래스 빈도가 운영 용도의 것과 동일하다고 가정 함). 패턴 순위 지정 기능을 측정하는 메트릭 및 순위가 확률로 얼마나 잘 교정되는지 측정하는 메트릭.

많은 작업의 경우 운영 오 분류 비용을 알 수 없거나 가변적이거나 운영 클래스 빈도가 교육 샘플과 다르거 나 가변적입니다. 이 경우 전체 정확도는 종종 의미가 없으며 AUROC는 성능을 더 잘 나타내는 지표이며 이상적으로는 잘 보정 된 확률을 출력하는 분류기를 사용하여 운영상의 이러한 문제를 보완 할 수 있습니다. 본질적으로 어떤 측정 항목이 중요한지는 해결하려는 문제에 따라 다릅니다.


Dikran, 첫 단락에 대한 참조가 있습니까?
Bunder

@BUR이 아닌 AUROC는 무작위로 선택된 + ve 패턴이 무작위로 선택된 -ve 패턴 ( en.wikipedia.org/wiki/… ) 보다 순위가 높을 가능성이 높으므로 순위의 품질 측정치입니다. 가능한 한 높은 확률을 원합니다.
Dikran Marsupial

5

AUC는 정말 유용한 지표입니까?

예상 비용이 더 적절한 척도라고 말하고 싶습니다.

그런 다음 모든 오 탐지에 대한 비용 A와 모든 오 탐지에 대한 비용 B를 갖게됩니다. 다른 클래스가 다른 클래스보다 상대적으로 비싸다는 것은 쉽게 알 수 있습니다. 물론 여러 하위 그룹에서 잘못된 분류에 대한 비용이 있다면 더 강력한 지표가 될 것입니다.

x 축의 컷오프와 Y 축의 예상 비용을 플로팅하여 어떤 컷오프 지점이 예상 비용을 최소화하는지 확인할 수 있습니다.

공식적으로 당신은 최소화하려고하는 손실 함수 손실 (차단, 비용)을 가지고 있습니다.


3
예상 비용은 AUC 계산에 필요하지 않은 위양성 및 위음성 비용을 알고있는 경우에만 평가할 수 있습니다. 이는 비용을 알 수 없거나 가변적 인 경우 사용하기에 좋은 통계입니다.
Dikran Marsupial

4

과 마찬가지로 답변이 게시되었습니다 ROCaccuracy기본적인 두 개의 서로 다른 개념입니다.

일반적으로 말하면, ROC클래스 분포 및 불평등 한 예측 오류 비용 (거짓 양수 및 거짓 음수 비용)과 무관하게 분류 자의 차별적 힘을 설명합니다.

같은 메트릭 accuracytest dataset또는 의 클래스 분포를 기반으로 계산 cross-validation되지만 기본 클래스 분포가 변경되었거나 알 수 없기 때문에 분류자를 실제 데이터에 적용하면이 비율이 변경 될 수 있습니다. 반면에, TP rate그리고 FP rate구축에 사용되는 것은 AUC클래스 분포 이동에 의해 영향을받지 않을 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.