ROC 곡선 분석을위한 베이지안 방법을 발명 한 적이 있습니까?


21

전문

이것은 긴 글입니다. 이 내용을 다시 읽는다면 배경 자료는 동일하게 유지되지만 질문 부분을 수정했습니다. 또한 문제에 대한 해결책을 고안했다고 생각합니다. 해당 솔루션은 게시물 하단에 나타납니다. 내 원래 솔루션 (이 게시물에서 편집; 해당 솔루션의 편집 기록 참조)이 반드시 바이어스 된 추정치를 생성했음을 지적한 CliffAB에게 감사합니다.

문제

기계 학습 분류 문제에서 모델 성능을 평가하는 한 가지 방법은 ROC 곡선 또는 ROC 곡선 아래 면적 (AUC)을 비교하는 것입니다. 그러나 ROC 곡선의 변동성 또는 AUC 추정치에 대한 귀중한 논의는 거의 없다고 생각합니다. 즉, 데이터로부터 추정 된 통계이므로 이와 관련된 오류가 있습니다. 이러한 추정치에서 오류를 특성화하면 예를 들어 한 분류 기가 실제로 다른 분류기보다 우수한지 여부를 특성화 할 수 있습니다.

이 문제를 해결하기 위해 ROC 곡선의 베이지안 분석이라고하는 다음과 같은 접근 방식을 개발했습니다. 이 문제에 대한 내 생각에는 두 가지 주요 관찰 사항이 있습니다.

  1. ROC 곡선은 데이터에서 추정 된 수량으로 구성되며 베이지안 분석이 가능합니다.

    ROC 곡선은 데이터에서 추정 된 각각의 오 탐율 에 대해 실제 양의 비율 을 플로팅하여 구성됩니다 . 나는 생각 및 의 기능 (로지스틱 회귀 분석에 등을 SVM에서 초평면에서 임의의 숲에서 나무의 표를, 거리, 예측 확률), 결정 B에서 정렬 클래스 A에 사용되는 임계 값을. 결정 임계 값 의 값을 변경하면 및 의 다른 추정값이 반환됩니다 . 또한 고려할 수 있습니다.F P R ( θ ) T P R F P R θ θ T P R F P R T P R ( θ )TPR(θ)FPR(θ)TPRFPRθθTPRFPRTPR(θ)Bernoulli 시행 순서에서 성공 확률의 추정치가됩니다. 실제로 TPR은 으로 정의되며 이는 성공 및 총 시행 실험에서 이항 성공 확률의 MLE이기도합니다 .TPTP+FN>0TPTP+FN,TPTP+FN>0

    따라서 및 의 출력을 임의의 변수로 간주하여 성공 및 실패 수가 정확히 알려진 이항 실험의 성공 확률을 추정하는 문제에 직면하게됩니다. 에 의해 , , 및 I)가 모두 고정되어 가정합니다. 기존에는 단순히 MLE을 사용하고 특정 값의 대해 TPR과 FPR이 고정되어 있다고 가정합니다.F P R ( θ ) T P F P F N T N θ θTPR(θ)FPR(θ)TPFPFNTNθ. 그러나 ROC 곡선에 대한 베이지안 분석에서 ROC 곡선의 사후 분포에서 표본을 추출하여 얻은 ROC 곡선의 후부 시뮬레이션을 그립니다. 이 문제에 대한 표준 베이지안 모델은 성공 확률 이전에 베타가있는 이항 가능성입니다. 성공 확률에 대한 사후 분포도 베타이므로 각 에 대해 TPR 및 FPR 값의 사후 분포가 있습니다. 이것은 우리에게 두 번째 관찰을 가져옵니다.θ

  2. ROC 곡선은 감소하지 않습니다. 따라서 및 의 일부 값을 샘플링 한 후에는 샘플링 된 지점의 "남쪽"ROC 공간에있는 지점을 샘플링 할 가능성이 없습니다. 그러나 형상이 제한된 샘플링은 어려운 문제입니다.F P R ( θ )TPR(θ)FPR(θ)

베이지안 접근법은 단일 추정치로부터 다수의 AUC를 시뮬레이션하는 데 사용될 수 있습니다. 예를 들어, 20 개의 시뮬레이션이 원본 데이터와 비교했을 때 이와 유사합니다. 시뮬레이션 된 ROC 곡선

이 방법에는 여러 가지 장점이 있습니다. 예를 들어, 한 모델의 AUC가 다른 모델보다 클 확률은 후방 시뮬레이션의 AUC를 비교하여 직접 추정 할 수 있습니다. 분산의 추정치는 리샘플링 방법보다 저렴한 시뮬레이션을 통해 얻을 수 있으며, 이러한 추정에는 리샘플링 방법에서 발생하는 상관 샘플의 문제가 발생하지 않습니다.

해결책

위의 두 가지 외에도 문제의 본질에 대한 세 번째 및 네 번째 관찰을 통해이 문제에 대한 해결책을 개발했습니다.

  1. F P R ( θ )TPR(θ) 및 에는 시뮬레이션에 적합한 한계 밀도가 있습니다.FPR(θ)

    경우 (그 ) 매개 변수를 사용하여 베타 분포 확률 변수이다 와 (부사장 와 ), 우리는 또한 TPR의 밀도가 여러 가지 다른 값을 통해 평균 무엇인지 고려할 수 있습니다 분석에 해당하는 . 즉, 우리는 표본 외 모델 예측에 의해 얻어진 값 들의 수집으로부터 값을 샘플링 한 다음 의 값을 샘플링하는 계층 적 프로세스를 고려할 수있다 . 의 결과 샘플에 대한 분포F P R ( θ ) T P F N F P T N θ θ T P R ( ~ θ ) T P R ( ~ θ ) θ T P R ( θ ) c θ 1 / cTPR(θ)FPR(θ)TPFNFPTNθθ~θTPR(θ~)TPR(θ~)값은 자체 에 무조건적인 진정한 긍정적 인 비율의 밀도입니다 . 우리는 대한 베타 모델을 가정하고 있기 때문에 결과 분포는 베타 분포의 혼합이며, 많은 성분 는 모음의 크기와 같고 혼합 계수 입니다.θTPR(θ)cθ1/c

    이 예에서는 TPR에서 다음 CDF를 얻었습니다. 특히, 매개 변수 중 하나가 0 인 베타 분포의 퇴화로 인해 일부 혼합 성분은 0 또는 1에서 Dirac 델타 함수입니다. 이것이 0과 1에서 갑작스런 스파이크의 원인입니다. 이러한 밀도는 연속적이거나 불 연속적이지 않습니다. 두 매개 변수 모두에서 양수인 사전을 선택하면 이러한 급작스런 스파이크 ( "미도시")가 "평활화"되는 효과가 있지만 결과 ROC 곡선은 이전쪽으로 끌어 당겨집니다. FPR (미도시)에 대해서도 마찬가지이다. 한계 밀도에서 샘플을 그리는 것은 역변환 샘플링의 간단한 적용입니다.

TPR의 CDF

  1. 형상 제약 조건을 해결하려면 TPR과 FPR을 독립적으로 정렬하면됩니다.

    비 감소 요구 사항은 TPR 및 FPR의 한계 샘플이 독립적으로 정렬되어야하는 요구 사항과 동일합니다. 즉, ROC 곡선의 모양은 가장 작은 TPR 값이 가장 작은 FPR과 쌍을 이루어야한다는 요구 사항에 의해 완전히 결정됩니다. 값이 제한되어 있습니다. 즉, 모양이 제한된 임의 샘플의 구성이 간단하다는 것을 의미합니다. 부적절한 이전에, 시뮬레이션은 이러한 방식으로 ROC 곡선을 구성하면 많은 수의 샘플의 한계에서 원래 AUC로 수렴하는 평균 AUC를 가진 샘플을 생성한다는 증거를 제공합니다. 아래는 KDE 2000 시뮬레이션입니다.Beta(0,0)

여기에 이미지 설명을 입력하십시오

부트 스트랩과 비교

@AdamO와의 긴 대화 토론 (AdamO! 덕분에)은 두 개의 ROC 곡선을 비교하거나 단일 ROC 곡선의 변동성을 특성화하는 몇 가지 확립 된 방법이 부트 스트랩이라고 지적했습니다. 실험으로, 홀드 아웃 세트에서 관측치 인 내 예제를 부트 스트랩 하고 결과를 베이지안 방법과 비교하려고했습니다. 결과는 아래에 비교되어 있습니다 (여기서 부트 스트랩 구현은 간단한 부트 스트랩입니다. 원래 샘플의 크기를 대체하여 무작위로 샘플링합니다. 부트 스트랩에서 커서를 읽으면 리샘플링 방법에 대한 지식에 상당한 차이가 생길 수 있습니다. 적절한 접근.)n=20

여기에 이미지 설명을 입력하십시오

이 데모는 부트 스트랩의 평균이 원래 샘플의 평균보다 낮게 바이어스되고 부트 스트랩의 KDE가 잘 정의 된 "험프"를 생성 함을 보여줍니다. 이러한 혹의 기원은 거의 신비 롭지 않습니다 .ROC 곡선은 각 점의 포함에 민감 할 것이며, 작은 표본 (여기서 n = 20)의 효과는 기본 통계가 각각의 포함에 더 민감하다는 것입니다 포인트. (이러한 패턴 화는 커널 대역폭의 인공물이 아닙니다. 러그 플롯을 참고하십시오. 각 스트라이프는 동일한 값을 갖는 여러 부트 스트랩 복제입니다. 부트 스트랩에는 2000 개의 복제가 있지만 고유 값의 수는 훨씬 더 작습니다. 험프는 부트 스트랩 절차의 본질적인 특징이라고 결론 지을 수 있습니다. 대조적으로, 평균 베이지안 AUC 추정치는 원래 추정치에 매우 가까운 경향이 있습니다.

의문

수정 된 질문은 수정 된 솔루션이 잘못된 지 여부입니다. 좋은 대답은 결과 ROC 곡선의 샘플이 편향되어 있음을 증명 (또는 반증)하거나 마찬가지로이 접근법의 다른 특성을 입증 또는 반증합니다.


1
ROC 곡선에 대해 너무 많은 믿음을 갖고 있다고 생각합니다. 통찰력으로 이어지는 단일 사례를 보지 못했습니다. 나는 그들이 임계 값으로 이어지는 많은 경우를 보았습니다. 실제로는 나쁜 생각입니다.
Frank Harrell 2016 년

1
@FrankHarrell 메모 해 주셔서 감사합니다. Harrell 박사. 그러나 고객의 경우, 매우 큰 데이터 세트에서 자율적으로 의사 결정을 내리는 분류자를 개발해야합니다. 의학적인 측면에서 이것은 비생산적이지만 각 관측에 대한 전문가의 유틸리티 / 비용 분석은 수천 개의 데이터 포인트에 대한 결정을 내려야 할 때 비현실적입니다. 이 작업을 수행하기 위해 구현할 모델을 선택해야하며 ROC / AUC가 해당 결정에 도움을줍니다.
Sycorax는 Reinstate Monica

2
확률을 예측 했으므로 적어도 프로세스 시작시 분류기를 사용하지 않습니다. 유틸리티는 의사 결정을 개선하지만 유틸리티를 얻을 수없는 경우 리프트 곡선과 의사 결정 위험 임계 값을 사용하여 ROC 곡선과 다르게 생각할 수 있습니다. 이것은 실제로 의료 문제가 아닙니다.
Frank Harrell

3
시연하기 위해 을 가지고 있고 Unif (0,1) (즉, beta (1,1)) 을 조금 알고 있다고 가정 합니다. 이것은 문제와 비슷한 모양 제약입니다 (약간 변경되었지만 문제는 이런 식으로 볼 수 있습니다). 이것이 공동 가능성을 완전히 특성화 하지는 않습니다 . 그리고 또는 시작하면 샘플링 체계가 완전히 다른 분포를 낳을 수 있음을 알 수 있습니다 (즉, 시작한 것이 평균보다 다른 분포 보다 큼). X 1 , X 2 ~ X 1 X 2X1+X2<1X1,X2X1X2
Cliff AB

3
강의 노트로 시작하십시오 -biostat.mc.vanderbilt.edu/CourseBios330을 참조하십시오 . 또한 biostat.mc.vanderbilt.edu/ClinStat 에서 구할 수있는 Biomedical Research의 Biostatistics , 특히 Information Loss 장과 10 장의 시작 부분을 살펴보십시오.
Frank Harrell

답변:


7

먼저 ROC 곡선을 "분석"하는 방법은 없습니다. 분류 모델의 예측 능력을 나타내는 그래픽 일뿐입니다. c- 통계량 또는 AUC를 사용하여 ROC 곡선을 확실히 요약 할 수 있지만 Wilcoxon U- 통계량과의 관계로 인해 신뢰 구간 계산 및 통계량을 사용한 추론 수행 이 잘 이해됩니다.c

부트 스트랩 cf Pepe Etzione Feng을 사용하여 ROC 곡선의 변동성을 추정 할 수 있다는 것은 일반적으로 상당히 잘 알려져 있습니다 . 이것은 ROC 곡선이 실험적인 추정치이며 부트 스트랩이 비모수 적이기 때문에 좋은 접근 방법입니다. 이러한 방식으로 매개 변수를 매개 변수화하면 " 정확한 사전 정보가 실제로는 비 정보 적인가?" 와 같은 가정 및 합병증 발생합니다. 나는 이것이 사실이라고 확신하지 못한다.

마지막으로, 의사 우도 문제가 있습니다. 모든 ROC 사용에서 일반적으로 랜덤 변수로 간주 되지 않는 유일한 것은 를 사전에 두어 ROC 곡선의 변동성을 유도 할 수 있습니다 . 그런 다음 변동에 의해 유발 된 TPR 및 FPR의 변동 은 독립적 이라고 가정합니다 . 그들은 아닙니다. 실제로 그들은 완전히 의존적입니다. 당신은 킬로그램과 파운드로 자신의 체중에 대한 베이지안 후부를 계산하고 서로 의존하지 않는다고 말합니다.θθθ

완벽한 차별이 있는 모델을 예로 들어 보겠습니다 . 방법을 사용하면 신뢰 구간이 단위 제곱임을 알 수 있습니다. 그들은 아닙니다! 완벽한 차별이있는 모델에는 변동성이 없습니다. 부트 스트랩이이를 보여줄 것입니다.

베이지안 관점에서 ROC "분석"문제에 접근하는 경우 분석에 사용 된 모델의 공간을 미리 지정하여 모델 선택 문제를 해결하는 것이 가장 유용 할 것입니다. 그것은 매우 흥미로운 문제입니다.


이 답변이 게시물의 내용에 응답하는지 잘 모르겠습니다. 예를 들어, 완벽한 차별 모델을 위해 ROC 곡선을 시뮬레이션했습니다. 이 곡선들은 모두 ROC 공간의 가장 북서쪽 모서리에 집중되어 있으며 AUC 시뮬레이션 주위의 중앙 간격은 1에 매우 가까운 숫자입니다. 전체 단위 광장에.
Sycorax는

1
그래도 TPR과 FPR이 독립적이지 않은 이유에 대해 자세히 설명하고 싶습니다. TP와 FN 또는 FP와 TN이 완전히 의존하는 이유를 이해할 수 있습니다 (각 쌍은 항상 같은 숫자로 표시됩니다). TP 등의 값은 내 분석에서 고정 된 것으로 가정합니다. 그러나 는 rv로 가정되지 않으며 사전을 두지 않습니다 . 오히려 나는 그 결과 가정 와 이다 RVS을θ T P R ( θ ) F P R ( θ )θθTPR(θ)FPR(θ)
Sycorax는 분석 재개 모니카 말한다

user777 그냥 명확하게하기 위해 @, 당신은 임계 값에 이전 넣었습니다 당신은 호출중인 와 아무것도 오른쪽? θ
AdamO

θθ 는 전적으로 임계 값을 나타냅니다. 나는 임계 값 에 사전을 두지 않았습니다 . θ
Sycorax는 Reinstate Monica

@ user777 사전에 정확히 무엇이 있습니까?
AdamO
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.