ROC 곡선의 장점은 무엇입니까?
예를 들어 바이너리 분류 문제 인 일부 이미지를 분류하고 있습니다. 약 500 개의 기능을 추출하고 기능 선택 알고리즘을 적용하여 기능 세트를 선택한 다음 분류를 위해 SVM을 적용했습니다. 이 경우 어떻게 ROC 곡선을 얻을 수 있습니까? 기능 선택 알고리즘의 임계 값을 변경하고 ROC 곡선을 그리려면 출력의 감도와 특이성을 가져야합니까?
제 경우에는 ROC 곡선을 만드는 목적이 무엇입니까?
ROC 곡선의 장점은 무엇입니까?
예를 들어 바이너리 분류 문제 인 일부 이미지를 분류하고 있습니다. 약 500 개의 기능을 추출하고 기능 선택 알고리즘을 적용하여 기능 세트를 선택한 다음 분류를 위해 SVM을 적용했습니다. 이 경우 어떻게 ROC 곡선을 얻을 수 있습니까? 기능 선택 알고리즘의 임계 값을 변경하고 ROC 곡선을 그리려면 출력의 감도와 특이성을 가져야합니까?
제 경우에는 ROC 곡선을 만드는 목적이 무엇입니까?
답변:
많은 이진 분류 알고리즘은 일종의 분류 점수를 계산하며 (때로는 항상 목표 상태에있을 가능성은 아님) 점수가 특정 임계 값을 초과하는지 여부에 따라 분류됩니다. ROC 곡선을 보면 모델링 기술에서 선택한 것보다는 가능한 모든 임계 값에 대한 감도와 특이성 간의 상충 관계를 볼 수 있습니다. 다른 분류 목표는 곡선의 한 지점을 한 작업에 더 적합하고 다른 작업을 다른 작업에 더 적합하게 만들 수 있으므로 ROC 곡선을 보는 것은 임계 값 선택과 무관하게 모델을 평가하는 방법입니다.
지난 몇 년 동안 내가 본 사례의 99 %에서 ROC 곡선은 유익하지 않습니다. 그들은 많은 통계 학자와 더 많은 머신 러닝 전문가들에게 의무적 인 것으로 생각됩니다. 그리고 문제가 실제로 분류 문제이고 위험 평가 문제가 아닌지 확인하십시오. ROC 곡선 문제의 핵심은 사용자가 연속 변수에 컷 포인트를 사용하도록 초대하고 역 확률 즉, 시간 순서가 반대 인 이벤트의 확률 (감도 및 특이성)을 사용한다는 것입니다. ROC 곡선은 의사 결정 규칙 사용자가 손실 (비용; 유틸리티) 기능을 분석가에게 전가하는 매우 특별한 경우를 제외하고 최적의 절충점을 찾는 데 사용할 수 없습니다.
ROC 곡선을 생성 한 후 AUC (곡선 아래 면적)를 계산할 수 있습니다. AUC는 여러 임계 값에 걸친 테스트의 정확성입니다. AUC = 1은 테스트가 완벽 함을 의미합니다. AUC = .5는 이진 분류에 대해 우연히 수행됨을 의미합니다.
여러 모델이있는 경우 AUC는 여러 모델을 비교하기 위해 단일 측정을 제공합니다. 모든 단일 측정 값과 항상 상충 관계가 있지만 AUC를 시작하는 것이 좋습니다.
AUC는 실제 클래스와 예측 클래스를 비교하지 않습니다. 예측 된 클래스가 아니라 예측 점수 또는 확률을보고 있습니다. 이 점수에 컷오프를 적용하여 클래스 예측을 수행 할 수 있습니다. 예를 들어 점수가 0.5 미만인 모든 샘플은 음수로 분류됩니다. 그러나 ROC는 그 전에 발생합니다. 점수 / 클래스 확률로 작업하고 있습니다.
이 점수를 받아 해당 점수에 따라 모든 샘플을 정렬합니다. 이제 양수 샘플을 찾을 때마다 ROC- 커브가 (y 축을 따라) 스텝 업합니다. 네거티브 샘플을 찾을 때마다 (x 축을 따라) 오른쪽으로 이동합니다. 그 점수가 두 클래스에서 다른 경우, 긍정적 인 샘플이 먼저옵니다 (보통). 즉, 오른쪽보다 더 많은 단계를 수행해야합니다. 목록 아래로 내려 가면 음성 샘플이 나오므로 왼쪽으로 이동하십시오. 전체 샘플 목록을 살펴보면 양수의 100 %와 음수 샘플의 100 %에 해당하는 좌표 (1,1)에 도달합니다.
점수가 음수 샘플에서 양수를 완벽하게 분리하면 (x = 0, y = 0)에서 (1,0)으로 이동 한 다음 거기에서 (1, 1)로 이동합니다. 따라서 곡선 아래 면적은 1입니다.
점수가 양성 및 음성 샘플에 대해 동일한 분포를 갖는 경우 정렬 된 목록에서 양성 또는 음성 샘플을 찾는 확률은 동일하므로 ROC 곡선에서 위로 또는 왼쪽으로 이동할 확률은 동일합니다. 그렇기 때문에 대각선을 따라 이동하는 이유는 기본적으로 상하 좌우로 움직이므로 AROC 값은 약 0.5입니다.
불균형 데이터 세트의 경우 단계 화가 다릅니다. 따라서 왼쪽에 더 작은 단계를 수행합니다 (음수가 더 많은 샘플이있는 경우). 그렇기 때문에 점수가 불균형과 무관합니다.
따라서 ROC 곡선을 사용하면 샘플이 분리되는 방식을 시각화 할 수 있으며 곡선 아래의 영역은 이진 분류 알고리즘의 성능 또는 클래스를 분리하는 데 사용할 수있는 변수를 측정하는 데 매우 유용한 지표가 될 수 있습니다.
그림은 표본 크기가 다른 동일한 분포를 보여줍니다. 검은 색 영역은 양성 및 음성 샘플의 무작위 혼합물의 ROC 곡선이 예상되는 위치를 보여줍니다.