답변:
로지스틱 회귀 분석을 수행하면 과 코딩 된 두 개의 클래스가 제공 됩니다. 이제, 개인이 코딩 된 클래스에 속하는 일부 설명적인 varialbe를 제공 한 확률을 계산 합니다. 이제 확률 임계 값을 선택하고이 임계 값보다 큰 확률을 가진 모든 개인을 클래스 로 이하로 분류하면0 1 1 0일반적으로 두 그룹을 완벽하게 식별 할 수 없으므로 대부분의 경우 오류가 발생합니다. 이 임계 값을 사용하여 오류와 소위 감도 및 특이성을 계산할 수 있습니다. 많은 임계 값에 대해이 작업을 수행하는 경우 가능한 많은 임계 값에 대해 1-Specificity에 대한 민감도를 표시하여 ROC 곡선을 구성 할 수 있습니다. 판별 분석 또는 프로 빗 모델과 같이 두 클래스를 구별하려고하는 다른 방법을 비교하려는 경우 곡선 아래의 영역이 활성화됩니다. 이러한 모든 모델에 대해 ROC 곡선을 구성 할 수 있으며 곡선 아래 면적이 가장 큰 ROC 곡선을 최상의 모형으로 볼 수 있습니다.
더 깊이 이해해야하는 경우 여기 를 클릭하여 ROC 곡선과 관련된 다른 질문에 대한 답변을 읽을 수도 있습니다.
로지스틱 회귀 모형은 직접 확률 추정 방법입니다. 분류는 그 사용에 아무런 역할을해서는 안됩니다. 개별 상황에서 유틸리티 (손실 / 비용 기능)를 평가하지 않는 분류는 특별한 비상 상황을 제외하고는 부적절합니다. ROC 곡선은 여기서 도움이되지 않습니다. 전체 분류 정확도와 마찬가지로 민감도 또는 특이도는 최대 가능성 추정에 적합하지 않은 가짜 모델에 의해 최적화 된 부적절한 정확도 점수 규칙입니다.
데이터를 과적 합하여 예측 차별 (높은 인덱스 (ROC 영역)) 을 달성 합니다. 하게 적합 하지 않은 모형 (예 : 새 데이터에서 작동 할 가능성이있는 모형)을 얻으려면 가장 빈번한 범주 에서 적어도 관측치 가 필요합니다 . 여기서 는 고려중인 후보 예측 변수 의 수입니다. 훈련 데이터에 대한 연구뿐만 아니라 예측 위험이 0.95의 신뢰도 로 오차 한계 를 갖도록 절편을 추정하기 위해서는 최소한 96 개의 관측 값이 필요합니다 .15 p Y p ≤ 0.05
나는이 블로그의 저자가 아니며이 블로그가 매우 도움이된다는 것을 발견했다 : http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
이 설명을 데이터에 적용하면 평균 긍정적 인 예는 부정적인 예의 약 10 %가 그보다 높은 점수를 얻습니다.