Cox 비례 위험 모델로 교차 검증을 수행하는 방법은 무엇입니까?

하나의 데이터 세트 (모델 구축 데이터 세트)에서 특정 질병의 발생에 대한 예측 모델을 구성했으며 이제 새 데이터 세트 (유효성 검증 데이터 세트)에서 모델이 얼마나 잘 작동하는지 확인하려고합니다. 로지스틱 회귀로 작성된 모델의 경우 모델 빌딩 데이터 세트에서 얻은 모델 계수를 기반으로 유효성 검사 데이터 세트의 각 사람에 대한 예측 확률을 계산 한 다음 일부 컷오프 값에서 확률을 이분법 화 한 후 2x2 테이블을 구성 할 수 있습니다 이를 통해 실제 양의 비율 (민감도)과 실제 음의 비율 (특성)을 계산할 수 있습니다. 또한 컷오프를 변경하여 전체 ROC 곡선을 구성한 다음 ROC 그래프의 AUC를 얻을 수 있습니다.

이제 실제로 생존 데이터가 있다고 가정합니다. 따라서 모델 구축 데이터 집합에 Cox 비례 위험 모델을 사용했으며 이제 유효성 검사 데이터 집합에서 모델이 얼마나 잘 작동하는지 확인하고 싶습니다. Cox 모델에서는 기준선 위험이 파라 메트릭 함수가 아니기 때문에 모델 구축 데이터 집합에서 얻은 모델 계수를 기반으로 유효성 검사 데이터 집합에서 각 사람의 예상 생존 확률을 얻는 방법을 알 수 없습니다. 그렇다면 유효성 검사 데이터 세트에서 모델이 얼마나 잘 작동하는지 확인하려면 어떻게해야합니까? 이를위한 확립 된 방법이 있습니까? 그렇다면 어떤 소프트웨어로 구현 되었습니까? 어떤 제안이라도 미리 감사드립니다!

— 볼프강
소스

답변:

일반화 된 ROC 영역 (이분법이 전혀 필요없는 c- 인덱스)이지만 ROC 곡선은이 설정에서 유용하지 않습니다. R rms패키지는 c- 색인과 교차 검증 또는 부트 스트랩 과적 합 수정 버전을 계산합니다. 모델을 완전히 사전 지정하거나 각 재 샘플에서 역 스텝 다운 알고리즘을 반복하면 데이터를 유지하지 않고도이 작업을 수행 할 수 있습니다. 당신이 진정으로 즉, 외부 검증을 수행하려면 유효성 검사 샘플이 거대한 경우, 다음과 같은 사용할 수있는 rms기능을 : rcorr.cens, val.surv.

— 프랭크 하렐
소스

답변 감사합니다. 이 설정에서 ROC 곡선이 유용하지 않은 이유를 설명해 주시겠습니까? 이러한 접근 방식이 사용 된 몇 가지 두드러진 응용 사례를 보았습니다 (예 : Hippisley-Cox et al. (2007). 영국의 새로운 심혈관 질환 위험 점수 인 QRISK의 도출 및 검증 : 전향 적 공개 코호트 연구. 영국 의학 저널 , 335 (7611) : 136), 이제 나는 그들의 방법에 대해 궁금합니다.

— Wolfgang

여기 비유가 있습니다. 노화가 달리기 능력과 어떤 관련이 있는지 평가하는 데 관심이 있다고 가정하십시오. ROC 접근 방식은 누군가의 달리기 능력에 따라 특정 (임의) 연령 이상일 확률이 얼마인지 질문합니다. 코호트 연구에서는 독립 변수와 종속 변수의 역할을 역전시키기 위해 혼란을 가중시킬뿐 아니라 ROC 곡선은 통계적으로 나쁜 것으로 알려진 예측 변수를 차단하도록 유혹합니다-biostat.mc.vanderbilt.edu/ 고양이 연속 . 동작을 만드는 것 외에도 컷 포인트는 실제로 다른 모든 예측 변수의 함수 여야합니다.

— Frank Harrell

답장을 보내 주셔서 다시 한 번 감사드립니다. 나는 완전히 확신하지는 않는다. 나는 연속 변수의 임의 분류가 나쁜 습관이라는 것에 전적으로 동의하지만, ROC 접근법은 가능한 모든 컷오프를 분류하고 AUC를 통해 그 정보를 요약합니다. 따라서 그에 대한 임의성은 없습니다. 또한 로지스틱 회귀 모델에 대한 표준적이고 수용 가능한 연습처럼 보입니다. 그렇다면 일반적으로 또는 생존 모델의 맥락에서 ROC 곡선을 사용하는 것에 반대합니까?

— Wolfgang

X = x

$X=x$

X > c

$X>c$

내 경험에 따르면 많은 연구자 / 실무자들이 실제로 이분법적인 결정 규칙을 원한다는 사실을 알 수 있습니다 (유용한 지 여부는 제외). 어쨌든, 나는 그 R 함수 중 일부에 대해 후속 조치를 취할 것입니다. 토론 주셔서 감사합니다.

— Wolfgang

나는이 질문이 꽤 오래되었다는 것을 알고 있지만, 같은 문제가 발생했을 때 내가 한 것은 예측 기능을 사용하여 유효성 검사 세트의 각 주제에 대해 "점수"를 얻는 것이 었습니다. 그런 다음 점수가 중앙값보다 높거나 낮은 지 여부에 따라 대상을 분할하고 Kaplan-Meier 곡선을 플로팅했습니다. 모델이 예측 가능한 경우 피사체의 분리를 보여줍니다. 또한 R의 생존 패키지에서 coxph 함수를 사용하여 스코어 (실제로 정규 분포의 경우 ln)와 생존의 상관 관계를 테스트했습니다.

— PMA
소스