ROC 곡선을 해석하는 방법?


14

SAS의 데이터에 로지스틱 회귀를 적용했으며 여기에 ROC 곡선 및 분류 표가 있습니다.

여기에 이미지 설명을 입력하십시오

나는 분류 표의 수치에 익숙하지만 roc 곡선과 그 아래 영역이 무엇을 나타내는 지 정확히 알지 못합니다. 모든 설명은 크게 감사하겠습니다.

답변:


22

로지스틱 회귀 분석을 수행하면 과 코딩 된 두 개의 클래스가 제공 됩니다. 이제, 개인이 코딩 된 클래스에 속하는 일부 설명적인 varialbe를 제공 ​​한 확률을 계산 합니다. 이제 확률 임계 값을 선택하고이 임계 값보다 큰 확률을 가진 모든 개인을 클래스 로 이하로 분류하면0 1 1 010110일반적으로 두 그룹을 완벽하게 식별 할 수 없으므로 대부분의 경우 오류가 발생합니다. 이 임계 값을 사용하여 오류와 소위 감도 및 특이성을 계산할 수 있습니다. 많은 임계 값에 대해이 작업을 수행하는 경우 가능한 많은 임계 값에 대해 1-Specificity에 대한 민감도를 표시하여 ROC 곡선을 구성 할 수 있습니다. 판별 분석 또는 프로 빗 모델과 같이 두 클래스를 구별하려고하는 다른 방법을 비교하려는 경우 곡선 아래의 영역이 활성화됩니다. 이러한 모든 모델에 대해 ROC 곡선을 구성 할 수 있으며 곡선 아래 면적이 가장 큰 ROC 곡선을 최상의 모형으로 볼 수 있습니다.

더 깊이 이해해야하는 경우 여기 를 클릭하여 ROC 곡선과 관련된 다른 질문에 대한 답변을 읽을 수도 있습니다.


ROC 곡선 아래 면적이 분류 표의 정확한 비율과 어떻게 다릅니 까?
Günal

2
이 표는 하나의 임계 값에 대해서만 정확하고 정확하지 않은 것을 보여줍니다. 그러나 AUROC 곡선은 완전한 분류 방법의 측정치이며 많은 다른 임계 값에 대한 정확하고 정확하지 않습니다.
random_guy

듣고 반갑습니다!
random_guy

6

AUC는 기본적으로 1 레이블이 지정된 데이터의 예측 응답 확률에서 임의의 추첨이 0 레이블이 지정된 데이터의 예측 응답 확률에서 임의의 추첨보다 얼마나 자주 발생하는지 알려줍니다.


6

로지스틱 회귀 모형은 직접 확률 추정 방법입니다. 분류는 그 사용에 아무런 역할을해서는 안됩니다. 개별 상황에서 유틸리티 (손실 / 비용 기능)를 평가하지 않는 분류는 특별한 비상 상황을 제외하고는 부적절합니다. ROC 곡선은 여기서 도움이되지 않습니다. 전체 분류 정확도와 마찬가지로 민감도 또는 특이도는 최대 가능성 추정에 적합하지 않은 가짜 모델에 의해 최적화 된 부적절한 정확도 점수 규칙입니다.

데이터를 과적 합하여 예측 차별 (높은 인덱스 (ROC 영역)) 을 달성 합니다. 하게 적합 하지 않은 모형 (예 : 새 데이터에서 작동 할 가능성이있는 모형)을 얻으려면 가장 빈번한 범주 에서 적어도 관측치 가 필요합니다 . 여기서 는 고려중인 후보 예측 변수 의 수입니다. 훈련 데이터에 대한 연구뿐만 아니라 예측 위험이 0.95의 신뢰도 로 오차 한계 를 갖도록 절편을 추정하기 위해서는 최소한 96 개의 관측 값이 필요합니다 .15 p Y p 0.05c15pYp0.05


@ 프랭크 하렐 (Frank Harrell) : 절편에 대한 계산과 오차 한계에 대한 설명을 자세히 설명해 주시겠습니까? 감사!
Julieth

@FrankHarrell은 모델을 교정하기 위해 능선 회귀를 수행하면 적어도 15p의 관측치가 필요하다는 조언을합니까? 내 이해는 우리가 p를 효과적인 차원으로 대체한다는 것입니다.
Lepidopterist 2016 년

맞습니다. 저는 2 차 (릿지) 페널티와 같은 벌칙을 사용하여 매개 변수를 추정하여 더 나은 교정 결과를
Frank Harrell

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.