이벤트 예측을위한 생존 분석

내 데이터 세트의 각 레코드에 대해 다음 정보가 있습니다.

(X_{1}, \dots, X_{m}, δ, T)

$(X_1 \ , \dots \ , X_m \ , \delta \ , T \ )$

여기서 는 기능이고 는 대상 이벤트가 발생하면 1이고 그렇지 않으면 0이며 는 발생 이벤트의 타임 스탬프입니다. 특히, 이벤트가 없거나 후속 조치 시간을 설정하면 가 누락 될 수 있습니다. $X_i$ $\delta$ $T$ $T$

내 데이터 세트의 각 레코드에 대한 위험 지수를 계산하고 싶습니다.

내가 사용하는 특징있는 분류 모델에 갈 생각 클래스 예측하는 . 그러나 가 중요합니다. 이벤트 가 곧 발생할 가능성이 높으면 위험이 높아져야합니다. $X_i$ $\delta$ $T$ $\delta$

이것이 생존 분석 이이 문제에 적합해야하는 이유 입니다. 대한 전체 평가가 필요하지 않지만 단일 레코드의 위험을 나타내는 단일 인덱스 만 필요합니다. $S(t) = P(T>t)$

각 레코드에 대해 계산할 수있는 평균 생존 시간은 좋은 위험 지수 인 것처럼 보입니다. 위험이 낮을수록 위험이 높습니다.

내 질문은 :

생존 분석이 나의 목적에 적합합니까?
모델의 성능을 어떻게 평가할 수 있습니까?

질문 (2)에 대해 : 예를 들어 Harrell의 index 를 사용하고 싶지만 어떤 예측 결과가 계산에 사용되는지 확실하지 않습니다. Harrell의 저서 회귀 모델링 전략 페이지 247에서 : $c$

인덱스 [...]는 하나의 피사체에 대응하고 다른 하나는 그렇지 않다고하도록 주제의 모든 가능한 쌍을 고려하여 계산된다. 지수는 비 응답자보다 응답 확률이 더 높은 응답자가있는 그러한 쌍의 비율이다. $c$

생존 분석이 올바른 선택으로 판명되면 시변 공변량 을 도입하기 위해 표준 방법을 사용하는 것이 쉬워야한다고 생각합니다 . $X_i(t)$

classification survival

— 시몬
소스

생존 분석이 나의 목적에 적합합니까?

생존 분석에 적합하지 않은 것으로 보이는 유일한 것은 :

... 이벤트가 없거나 후속 조치 시간을 설정하면 가 누락 될 수 있습니다. $TT$

대부분의 모델에서 개인이 마지막으로 생존 한 것으로 확인 된 기간을 알아야합니다. 그렇지 않으면 간단하고 생존 분석을 사용할 수 있어야합니다. 예를 들어 survival::coxphR 에서을 가진 Cox 비례 위험 또는을 가진 파라 메트릭 모델 survival::survreg.

각 레코드에 대해 계산할 수있는 평균 생존 시간은 좋은 위험 지수 인 것처럼 보입니다. 위험이 낮을수록 위험이 높습니다.

예, 앞서 언급 한 두 가지 (클래스) 모델에 평균 생존 시간 또는 선형 예측 변수를 사용할 수 있습니다.

모델의 성능을 어떻게 평가할 수 있습니까?

인덱스는 AUC의 "자연"일반화로 나에게 현명한 선택처럼 보인다. 예를 들어 R로 구현됩니다 . $c$ Hmisc::rcorr.cens

— 벤자민 크리스토퍼슨
소스