AIC와 c- 통계량 (AUC)이 실제로 모델 적합을 측정하는 것의 차이점은 무엇입니까?


29

AIC (Akaike Information Criterion)와 c- 통계량 (ROC 곡선 아래 면적)은 로지스틱 회귀 분석에 적합한 모형의 두 가지 측정치입니다. 두 측정 결과가 일치하지 않을 때 진행 상황을 설명하는 데 문제가 있습니다. 나는 그들이 모델 적합의 약간 다른 측면을 측정하고 있다고 생각하지만, 그 특정 측면은 무엇입니까?

3 가지 로지스틱 회귀 모형이 있습니다. 모델 M0에는 표준 공변량이 있습니다. 모델 M1은 X1을 M0에 추가합니다. 모델 M2는 X2를 M0에 추가하므로 M1과 M2는 중첩되지 않습니다.

M0에서 M1 및 M2 로의 AIC의 차이는 약 15이며, X1 및 X2는 모두 모델 적합도를 개선하고 대략 동일한 양을 나타낸다.

c- 통계량 : M0, 0.70; M1, 0.73; M2 0.72. M0에서 M1으로의 c- 통계량의 차이는 유의하지만 (DeLong et al 1988의 방법), M0에서 M2 로의 차이는 중요하지 않아서 X1이 모델 적합을 개선하지만 X2는 그렇지 않음을 나타냅니다.

X1은 일상적으로 수집되지 않습니다. X2는 정기적으로 수집되지만 약 40 %의 경우 누락됩니다. X1 수집을 시작할지, X2 수집을 개선 할 것인지 또는 두 변수를 모두 삭제할 것인지 결정하려고합니다.

AIC에서 우리는 변수가 모델과 비슷한 개선을 만든다는 결론을 내립니다. 완전히 새로운 변수 (X1) 수집을 시작하는 것보다 X2 수집을 개선하는 것이 더 쉬울 것이므로 X2 수집을 개선하는 것이 목표입니다. 그러나 c- 통계량에서 X1은 모델을 개선하고 X2는 개선하지 않으므로 X2를 잊고 X1 수집을 시작해야합니다.

권장 사항은 어떤 통계에 중점을 두느냐에 따라 다르므로 측정 대상의 차이점을 명확하게 이해해야합니다.

모든 조언을 환영합니다.

답변:


25

AIC와 c- 통계는 다른 질문에 답하려고합니다. (최근 몇 년 동안 c- 통계 관련 문제가 제기되었지만이를 제쳐두고 올 것입니다)

대략적으로 말하면 :

  • AIC는 특정 분류 오류 에 대해 모델이 얼마나 적합한 지 알려줍니다 .
  • AUC는 모든 분류 오류에 대해 평균적으로 모델이 얼마나 잘 작동하는지 알려줍니다.

AIC를 계산할 때는 0.9라고하는 예측을 제공하는 로지스틱을 1 (예 : 0보다 1)의 예측으로 처리하지만 반드시 그렇지는 않습니다. 당신은 당신의 물류 점수를 가지고 "0.95 이상은 1, 아래는 모든 것이 0"이라고 말할 수 있습니다. 왜 이렇게 하시겠습니까? 글쎄, 이것은 당신이 정말로 확신 할 때 오직 하나만 예측하도록 보장 할 것입니다. 당신의 오 탐률은 실제로 매우 낮을 것이지만, 당신의 오 탐률은 급등 할 것입니다. 어떤 상황에서는 이것이 나쁜 일이 아닙니다. 사기를당한 사람을 고발하려는 경우, 실제로 가장 먼저 확신하고 싶을 것입니다. 또한 긍정적 인 결과를 따르는 것이 비용이 많이 든다면 너무 많은 것을 원하지 않습니다.

이것이 비용과 관련된 이유입니다. 1을 0으로 분류 할 때 비용과 0을 1로 분류 할 때의 비용이 있습니다. 일반적으로 (기본 설정을 사용했다고 가정 할 때) 로지스틱 회귀 분석을위한 AIC는 두 가지 오 분류가 동일 할 때 특별한 경우를 나타냅니다. 비용이 많이 든다. 즉, 로지스틱 회귀 분석은 긍정적 또는 부정적 선호도없이 정확한 전체 예측 수를 제공합니다.

ROC 곡선은 다른 비용 요구 사항에서 분류기를 사용한 경우 분류 기가 어떻게 수행되는지를 보여주기 위해 가양성에 대한 참 긍정을 표시하기 때문에 사용됩니다. c- 통계량은 ROC 곡선이 다른 곡선 위에 엄격하게 존재하기 때문에 분명히 지배적 인 분류기이기 때문에 발생합니다. 그러므로 분류기 전체의 우수성을 나타내는 척도로 곡선 아래 면적을 측정하는 것이 직관적입니다.

따라서 기본적으로 모델을 피팅 할 때 비용을 알고 있다면 AIC (또는 이와 유사한)를 사용하십시오. 점수를 구성하고 있지만 진단 임계 값을 지정하지 않은 경우 AUC 접근 방식이 필요합니다 (AUC 자체에 대한 다음주의 사항 포함).

c-statistic / AUC / Gini의 문제점은 무엇입니까?

수년 동안 AUC는 표준 접근 방식이었으며 여전히 널리 사용되지만 여러 가지 문제가 있습니다. 특히 매력적으로 만든 것은 분류의 등급에 대한 Wilcox 테스트에 해당한다는 것입니다. 즉, 한 클래스의 무작위로 선택된 멤버의 점수가 다른 클래스의 무작위로 선택된 멤버의 점수보다 높을 확률을 측정했습니다. 문제는 거의 유용한 지표가 아닙니다.

AUC의 가장 중요한 문제는 몇 년 전 David Hand에 의해 발표되었습니다. 문제의 핵심은 ROC 곡선의 x 축이 False Positive Rate이기 때문에 AUC가 모든 비용에 대해 평균을내는 반면 다른 비용 체계에 할당되는 가중치는 분류기마다 다르다는 것입니다. 따라서 두 개의 다른 로지스틱 회귀 분석에서 AUC를 계산하면 두 경우 모두 "같은 것"을 측정하지 않습니다. 이것은 AUC를 기반으로 모델을 비교하는 것이 의미가 없다는 것을 의미합니다.

손은 고정 비용 가중치를 사용하여 대체 계산을 제안했으며 이것을 H- 측정이라고했습니다. R에는 hmeasure이 계산을 수행 할 패키지가 있으며 , 비교를 위해 AUC를 믿습니다.

AUC 문제에 대한 몇 가지 참조 :

  • 수신기 작동 특성 곡선 아래의 영역이 적절한 분류기 성능 척도는 언제입니까? DJ 손, C. Anagnostopoulos 패턴 인식 편지 34 (2013) 492–495

    (이것은 특히 접근하기 쉽고 유용한 설명 인 것으로 나타났습니다)


2
그리고 여기 DJ Hand의 또 다른 논문이 있습니다 : 분류기 성능 측정 : ROC 곡선 아래 영역에 대한 일관된 대안 , Machine Learning (2009) 77 : 103–123.
chl

그것이 제가 찾던 것이 었습니다-네, 이것에 대한 첫 번째 주요 논문이었습니다 (결과적으로 이후 논문보다 더 기술적 인 독자를 대상으로한다고 생각하지만).
Corone

3
아르 자형2

나는 Corone의 대답에 혼란스러워, AIC는 모델의 예측 성능과 관련이 없으며 모델 복잡성과 데이터가 교환 될 가능성의 척도 일 뿐이라고 생각했습니다.
Zhubarb

@Berkan은 단순히 "샘플링이 아닌 샘플 내 측정"을 의미하지 않는 한 "예측 성능과 관련이 없음"이 무엇을 의미하는지 잘 모르십니까? 가능성이 높을수록 해당 데이터 포인트를 "예측"하는 것이 좋습니다. 요점은 AIC가 미리 선택된 특정 우도 함수에 대한 것이고 AIC는 그 세트에 대한 평균입니다. 가능성 (예 : 임계 값, 비용, 보급률 ...)을 알고 있다면 AIC를 사용할 수 있습니다.
Corone

3

인용 된 핸드 페이퍼는 실제 임상 진단에 사용되는 근거가 없습니다. 그는 0.5 AUC의 이론적 곡선을 가지고 있으며, 이는 대신 완벽한 분류기입니다. 그는 실제 데이터의 단일 세트를 사용하는데, 모델이 너무 나쁘기 때문에 모델을 버릴 수 있으며 측정 주변의 신뢰 구간 (데이터는 제공되지 않았지만 추론 된)을 고려할 때 임의적 일 수 있습니다. . 실제 (혹은 그럴듯한 시뮬레이션) 데이터가 없다는 것을 감안할 때, 이것은 빈 종이입니다. 저는 개인적으로 수천 명의 환자 중 수천 명의 분류 자 ​​분석에 참여했습니다 (충분한 자유도). 이러한 맥락에서 그의 주장은 무의미하다.

그는 또한 최상급 (어느 상황에서나 좋은 징조가 아님) 경향이 있으며 지원되지 않는 일반화를 수행합니다. 예를 들어 비용을 알 수 없습니다. 의학에서는 선별 검사를위한 10 % 긍정적 예측 값, 치료 적 중재를위한 품질 조정 된 생활 연도 당 100,000 달러와 같이 허용되는 비용이 있습니다. 나는 신용 점수에서 비용이 잘 이해되지 않는다는 것을 믿기가 어렵다는 것을 안다. 그가 다른 개개의 오탐과 오탐이 다른 비용을 가지고 있다고 말하고 있다면, 그것은 매우 흥미로운 주제이지만, 닮지 않았다. 이진 분류기.

그의 요점은 ROC 형태가 중요하다는 것인데, 정교한 사용자에게는 분명하고 정교하지 않은 사용자는 예를 들어 유병률을 긍정적이고 부정적인 예측 값에 포함시키는 것에 대해 훨씬 더 걱정할 필요가 있습니다.

마지막으로, 모델의 임상 적 (또는 재정적) 사용에 의해 결정된 다양한 실제 컷오프를 기반으로 다양한 분류기를 판단 할 수없는 방법을 이해하지 못했습니다. 분명히, 각 모델마다 다른 컷오프가 선택 될 것입니다. 모델은 AUC만을 기준으로 비교되지 않습니다. 분류기는 중요하지 않지만 곡선의 모양은 중요합니다.


-1

결론적으로, C- 통계량 (AUC)은 다른 독립적 인 변수를 가진 모델을 비교할 때 문제가 될 수 있지만 (Hand가 "분류기"라고하는 것과 유사) 다른 응용에서는 여전히 유용합니다. 예를 들어, 동일한 모델이 다른 연구 모집단 (데이터 세트)에서 비교되는 검증 연구. 모델이나 위험 지수 / 점수가 한 집단에서는 높게 판별되지만 다른 집단에서는 그렇지 않은 것으로 표시되는 경우 이는 일반적으로 매우 유용한 도구는 아니지만 특정 사례에있을 수 있음을 의미 할 수 있습니다.


3
아르 자형2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.