결과에 대한 일부 측정의 예측 능력을 결정하기 위해 다른 테스트보다 ROC 곡선을 사용하는 경향이 언제입니까?
불연속 결과 (생존 / 사망, 현재 / 부재)를 다룰 때, ROC 곡선을 카이 제곱과 같은 것보다 더 강력하거나 덜 강력하게 만드는 것은 무엇입니까?
결과에 대한 일부 측정의 예측 능력을 결정하기 위해 다른 테스트보다 ROC 곡선을 사용하는 경향이 언제입니까?
불연속 결과 (생존 / 사망, 현재 / 부재)를 다룰 때, ROC 곡선을 카이 제곱과 같은 것보다 더 강력하거나 덜 강력하게 만드는 것은 무엇입니까?
답변:
ROC 함수 (곡선 일 필요는 없음)를 사용하면 특정 통계 모델 (예측 변수 또는 일련의 변수로 구성된)이 제공하는 판별 능력을 평가할 수 있습니다.
ROC의 주요 고려 사항은 모델 예측이 예측 변수에 의해 제공된 증거를 기반으로 예측을 식별 / 결정할 수있는 모델의 능력에서 비롯된 것이 아니라는 것입니다. 또한 운영은 모델이 반응을 예측하는 데 필요한 증거의 양과 이러한 반응의 결과를 정의하는 반응 기준입니다. 반응 기준에 대해 설정된 값은 모형 예측에 영향을 미치며 결과적으로 실수 유형에 영향을 미칩니다.
예측 변수 및 반응 기준이 포함 된 일반 모형을 고려하십시오. 이 모델은 예 또는 아니오로 응답하여 X의 존재를 예측하려고합니다. 따라서 다음 혼동 행렬이 있습니다.
**X present X absent**
**Model Predicts X Present** Hit False Alarm
**Model Predicts X Absent** Miss Correct Rejection
이 매트릭스에서는 적중률과 거짓 경보의 비율 만 고려하면됩니다 (다른 경보는 1에서 1까지 필요하므로 이들에서 파생 될 수 있기 때문). 각 응답 기준에 대해 다른 혼동 매트릭스를 사용해야합니다. 오류 (미스 및 오경보)는 음과 관련이 있습니다. 즉, 오경보를 최소화하는 응답 기준이 미스를 최대화하고 그 반대도 마찬가지입니다. 메시지는 : 무료 점심은 없다.
따라서 모델이 확립 된 응답 기준과 무관하게 사례를 얼마나 잘 식별하고 예측을 수행하는지 이해하기 위해 가능한 응답 기준 범위에 걸쳐 생성 된 적중 및 거짓 비율을 플로팅합니다.
이 플롯에서 얻는 것은 ROC 함수입니다. 함수 아래의 영역은 모델의 차별 능력에 대한 편견없는 비모수 적 측정 값을 제공합니다. 이 측정은 응답 기준에 의해 생성 될 수있는 혼란이 없기 때문에 매우 중요합니다.
두 번째로 중요한 측면은 함수를 분석하여 목표에 더 적합한 응답 기준을 정의 할 수 있다는 것입니다. 어떤 유형의 오류를 피하고 싶은지, 오류는 무엇입니까? 예를 들어, HIV 검사를 고려하십시오. 이는 일종의 증거 (이 경우 항체)를 찾아보고 증거를 반응 기준과 비교하여 차별 / 예측을 수행하는 검사입니다. 이 응답 기준은 일반적으로 매우 낮게 설정되므로 Miss를 최소화 할 수 있습니다. 물론 이것은 더 많은 허위 경보를 초래할 것이며, 비용은 있지만 미스와 비교할 때 무시할 수있는 비용입니다.
ROC를 사용하면 응답 기준과 독립적으로 일부 모델의 판별 능력을 평가하고 측정 대상의 요구 사항과 제약 조건에 따라 최적의 응답 기준을 설정할 수 있습니다. 예측이 우연의 수준에 있는지 테스트하더라도 많은 다른 Hit-False Alarm 쌍이 우연의 수준과 일치하기 때문에 hi-square와 같은 검정은 전혀 도움이 될 수 없습니다.
신호 탐지 이론과 같은 일부 프레임 워크는 차별에 사용 가능한 증거에 특정 분포 (예 : 정규 분포 또는 감마 분포)가 있다고 우선적으로 가정합니다. 이러한 가정이 성립 될 때 (또는 아주 가까운 경우) 인생을 편하게 해주는 정말 훌륭한 대책이 있습니다.
이것이 ROC의 장점을 설명하는 데 도움이되기를 바랍니다.
추가 참고 자료에 관심이있는 경우 KH Zou의 웹 사이트 인 ROC (Receiver Operating 특징) Literature Research 에서 광범위한 논문 목록을 볼 수 있습니다 .
ROC 곡선은 생물 의학 연구 및 생물 정보학의 광범위한 응용과 함께 다른 분류기 성능을 비교하려는 경우에도 사용됩니다.
여러 가지면에서 ROC는 모델의 기본 추론 및 추정 도구에서 멀어집니다. 나는 거기에 많은 가치를 볼 수 없습니다.