ROC 곡선을 생성하려면 (= 수신기 작동 특성 곡선) :
로지스틱 회귀와 같은 확률 적 이진 분류 기가 있다고 가정합니다. ROC 곡선을 제시하기 전에 혼동 행렬 의 개념을 이해해야합니다. 이진 예측을하면 4 가지 유형의 오류가있을 수 있습니다.
- 우리는 0을 예측하지만 클래스는 실제로 0이어야합니다 : 이것은 True Negative 라고합니다 . 즉, 클래스가 음수 (0)임을 정확하게 예측합니다. 예를 들어, 바이러스 백신은 무해한 파일을 바이러스로 탐지하지 못했습니다.
- 우리는 클래스가 실제로 1이어야 함을 0으로 예측하지만 이것은 거짓 부정 이라고합니다 . 즉, 클래스가 음 (0)이라고 잘못 예측합니다. 예를 들어 안티 바이러스가 바이러스를 탐지하지 못했습니다.
- 클래스가 실제로 0이되어야하는 동안 1을 예측합니다.이를 False Positive 라고합니다 . 즉, 클래스가 포지티브라고 잘못 예측합니다 (1). 예를 들어 바이러스 백신은 무해한 파일을 바이러스로 간주했습니다.
- 우리는 클래스가 실제로 1이어야 함을 1로 예측합니다. 이것은 True Positive 라고합니다 . 즉, 클래스가 포지티브라고 정확하게 예측합니다 (1). 예를 들어, 안티 바이러스가 바이러스를 올바르게 감지했습니다.
혼동 행렬을 얻기 위해 모델에 의한 모든 예측을 검토하고 4 가지 유형의 오류 각각이 몇 번 발생하는지 계산합니다.
이 혼동 행렬의 예에서, 분류 된 50 개의 데이터 포인트 중 45 개가 올바르게 분류되고 5 개가 잘못 분류됩니다.
서로 다른 두 모델을 비교하기 위해 여러 모델이 아닌 단일 메트릭을 사용하는 것이 더 편리하기 때문에 혼동 매트릭스에서 두 개의 메트릭을 계산하여 나중에 하나로 통합합니다.
- 티피티피+ F엔
- 에프피에프피+ T엔
0.00 ; 0.01 , 0.02 , … , 1.00
이 그림에서 파란색 영역은 수신기 작동 특성 (AUROC) 곡선 아래 영역에 해당합니다. 대각선의 파선은 랜덤 예측 변수의 ROC 곡선을 나타냅니다. AUROC는 0.5입니다. 랜덤 예측 변수는 일반적으로 모형이 유용한 지 여부를 확인하기위한 기준선으로 사용됩니다.
직접 경험을 원한다면 :