전문
이것은 긴 글입니다. 이 내용을 다시 읽는다면 배경 자료는 동일하게 유지되지만 질문 부분을 수정했습니다. 또한 문제에 대한 해결책을 고안했다고 생각합니다. 해당 솔루션은 게시물 하단에 나타납니다. 내 원래 솔루션 (이 게시물에서 편집; 해당 솔루션의 편집 기록 참조)이 반드시 바이어스 된 추정치를 생성했음을 지적한 CliffAB에게 감사합니다.
문제
기계 학습 분류 문제에서 모델 성능을 평가하는 한 가지 방법은 ROC 곡선 또는 ROC 곡선 아래 면적 (AUC)을 비교하는 것입니다. 그러나 ROC 곡선의 변동성 또는 AUC 추정치에 대한 귀중한 논의는 거의 없다고 생각합니다. 즉, 데이터로부터 추정 된 통계이므로 이와 관련된 오류가 있습니다. 이러한 추정치에서 오류를 특성화하면 예를 들어 한 분류 기가 실제로 다른 분류기보다 우수한지 여부를 특성화 할 수 있습니다.
이 문제를 해결하기 위해 ROC 곡선의 베이지안 분석이라고하는 다음과 같은 접근 방식을 개발했습니다. 이 문제에 대한 내 생각에는 두 가지 주요 관찰 사항이 있습니다.
ROC 곡선은 데이터에서 추정 된 수량으로 구성되며 베이지안 분석이 가능합니다.
ROC 곡선은 데이터에서 추정 된 각각의 오 탐율 에 대해 실제 양의 비율 을 플로팅하여 구성됩니다 . 나는 생각 및 의 기능 (로지스틱 회귀 분석에 등을 SVM에서 초평면에서 임의의 숲에서 나무의 표를, 거리, 예측 확률), 결정 B에서 정렬 클래스 A에 사용되는 임계 값을. 결정 임계 값 의 값을 변경하면 및 의 다른 추정값이 반환됩니다 . 또한 고려할 수 있습니다.F P R ( θ ) T P R F P R θ θ T P R F P R T P R ( θ )Bernoulli 시행 순서에서 성공 확률의 추정치가됩니다. 실제로 TPR은 으로 정의되며 이는 성공 및 총 시행 실험에서 이항 성공 확률의 MLE이기도합니다 .TPTP+FN>0
따라서 및 의 출력을 임의의 변수로 간주하여 성공 및 실패 수가 정확히 알려진 이항 실험의 성공 확률을 추정하는 문제에 직면하게됩니다. 에 의해 , , 및 I)가 모두 고정되어 가정합니다. 기존에는 단순히 MLE을 사용하고 특정 값의 대해 TPR과 FPR이 고정되어 있다고 가정합니다.F P R ( θ ) T P F P F N T N θ θ. 그러나 ROC 곡선에 대한 베이지안 분석에서 ROC 곡선의 사후 분포에서 표본을 추출하여 얻은 ROC 곡선의 후부 시뮬레이션을 그립니다. 이 문제에 대한 표준 베이지안 모델은 성공 확률 이전에 베타가있는 이항 가능성입니다. 성공 확률에 대한 사후 분포도 베타이므로 각 에 대해 TPR 및 FPR 값의 사후 분포가 있습니다. 이것은 우리에게 두 번째 관찰을 가져옵니다.
- ROC 곡선은 감소하지 않습니다. 따라서 및 의 일부 값을 샘플링 한 후에는 샘플링 된 지점의 "남쪽"ROC 공간에있는 지점을 샘플링 할 가능성이 없습니다. 그러나 형상이 제한된 샘플링은 어려운 문제입니다.F P R ( θ )
베이지안 접근법은 단일 추정치로부터 다수의 AUC를 시뮬레이션하는 데 사용될 수 있습니다. 예를 들어, 20 개의 시뮬레이션이 원본 데이터와 비교했을 때 이와 유사합니다.
이 방법에는 여러 가지 장점이 있습니다. 예를 들어, 한 모델의 AUC가 다른 모델보다 클 확률은 후방 시뮬레이션의 AUC를 비교하여 직접 추정 할 수 있습니다. 분산의 추정치는 리샘플링 방법보다 저렴한 시뮬레이션을 통해 얻을 수 있으며, 이러한 추정에는 리샘플링 방법에서 발생하는 상관 샘플의 문제가 발생하지 않습니다.
해결책
위의 두 가지 외에도 문제의 본질에 대한 세 번째 및 네 번째 관찰을 통해이 문제에 대한 해결책을 개발했습니다.
F P R ( θ ) 및 에는 시뮬레이션에 적합한 한계 밀도가 있습니다.
경우 (그 ) 매개 변수를 사용하여 베타 분포 확률 변수이다 와 (부사장 와 ), 우리는 또한 TPR의 밀도가 여러 가지 다른 값을 통해 평균 무엇인지 고려할 수 있습니다 분석에 해당하는 . 즉, 우리는 표본 외 모델 예측에 의해 얻어진 값 들의 수집으로부터 값을 샘플링 한 다음 의 값을 샘플링하는 계층 적 프로세스를 고려할 수있다 . 의 결과 샘플에 대한 분포F P R ( θ ) T P F N F P T N θ θ T P R ( ~ θ ) T P R ( ~ θ ) θ T P R ( θ ) c θ 1 / c값은 자체 에 무조건적인 진정한 긍정적 인 비율의 밀도입니다 . 우리는 대한 베타 모델을 가정하고 있기 때문에 결과 분포는 베타 분포의 혼합이며, 많은 성분 는 모음의 크기와 같고 혼합 계수 입니다.
이 예에서는 TPR에서 다음 CDF를 얻었습니다. 특히, 매개 변수 중 하나가 0 인 베타 분포의 퇴화로 인해 일부 혼합 성분은 0 또는 1에서 Dirac 델타 함수입니다. 이것이 0과 1에서 갑작스런 스파이크의 원인입니다. 이러한 밀도는 연속적이거나 불 연속적이지 않습니다. 두 매개 변수 모두에서 양수인 사전을 선택하면 이러한 급작스런 스파이크 ( "미도시")가 "평활화"되는 효과가 있지만 결과 ROC 곡선은 이전쪽으로 끌어 당겨집니다. FPR (미도시)에 대해서도 마찬가지이다. 한계 밀도에서 샘플을 그리는 것은 역변환 샘플링의 간단한 적용입니다.
형상 제약 조건을 해결하려면 TPR과 FPR을 독립적으로 정렬하면됩니다.
비 감소 요구 사항은 TPR 및 FPR의 한계 샘플이 독립적으로 정렬되어야하는 요구 사항과 동일합니다. 즉, ROC 곡선의 모양은 가장 작은 TPR 값이 가장 작은 FPR과 쌍을 이루어야한다는 요구 사항에 의해 완전히 결정됩니다. 값이 제한되어 있습니다. 즉, 모양이 제한된 임의 샘플의 구성이 간단하다는 것을 의미합니다. 부적절한 이전에, 시뮬레이션은 이러한 방식으로 ROC 곡선을 구성하면 많은 수의 샘플의 한계에서 원래 AUC로 수렴하는 평균 AUC를 가진 샘플을 생성한다는 증거를 제공합니다. 아래는 KDE 2000 시뮬레이션입니다.
부트 스트랩과 비교
@AdamO와의 긴 대화 토론 (AdamO! 덕분에)은 두 개의 ROC 곡선을 비교하거나 단일 ROC 곡선의 변동성을 특성화하는 몇 가지 확립 된 방법이 부트 스트랩이라고 지적했습니다. 실험으로, 홀드 아웃 세트에서 관측치 인 내 예제를 부트 스트랩 하고 결과를 베이지안 방법과 비교하려고했습니다. 결과는 아래에 비교되어 있습니다 (여기서 부트 스트랩 구현은 간단한 부트 스트랩입니다. 원래 샘플의 크기를 대체하여 무작위로 샘플링합니다. 부트 스트랩에서 커서를 읽으면 리샘플링 방법에 대한 지식에 상당한 차이가 생길 수 있습니다. 적절한 접근.)
이 데모는 부트 스트랩의 평균이 원래 샘플의 평균보다 낮게 바이어스되고 부트 스트랩의 KDE가 잘 정의 된 "험프"를 생성 함을 보여줍니다. 이러한 혹의 기원은 거의 신비 롭지 않습니다 .ROC 곡선은 각 점의 포함에 민감 할 것이며, 작은 표본 (여기서 n = 20)의 효과는 기본 통계가 각각의 포함에 더 민감하다는 것입니다 포인트. (이러한 패턴 화는 커널 대역폭의 인공물이 아닙니다. 러그 플롯을 참고하십시오. 각 스트라이프는 동일한 값을 갖는 여러 부트 스트랩 복제입니다. 부트 스트랩에는 2000 개의 복제가 있지만 고유 값의 수는 훨씬 더 작습니다. 험프는 부트 스트랩 절차의 본질적인 특징이라고 결론 지을 수 있습니다. 대조적으로, 평균 베이지안 AUC 추정치는 원래 추정치에 매우 가까운 경향이 있습니다.
의문
수정 된 질문은 수정 된 솔루션이 잘못된 지 여부입니다. 좋은 대답은 결과 ROC 곡선의 샘플이 편향되어 있음을 증명 (또는 반증)하거나 마찬가지로이 접근법의 다른 특성을 입증 또는 반증합니다.