이산 시간 생존 분석에 대한 기본 질문


18

로지스틱 회귀 모델을 사용하여 불연속 시간 생존 분석을 수행하려고하는데 프로세스를 완전히 이해하지 못했습니다. 몇 가지 기본적인 질문에 도움을 주셔서 감사합니다.

설정은 다음과 같습니다.

5 년 내에 그룹 멤버십을보고 있습니다. 각 회원은 해당 회원이 그룹에 속한 각 달의 월별 회원 기록을 보유합니다. 5 년 동안 멤버십을 시작한 모든 멤버를 고려하고 있습니다 (이전에 가입 한 멤버의 "왼쪽 검열"문제 방지). 각 레코드는 시간별로 색인화되며 시간은 멤버가 가입 한 달입니다. 따라서 2 년 반 동안 머무는 회원은 월별 30 건의 기록을 갖게되며 1에서 30까지 기록됩니다. 각 레코드에는 또한 이진 변수가 제공되는데,이 변수는 지난 달 멤버십에 대해 1의 값을 가지며 그렇지 않으면 0입니다. 이진 변수에 대해 1 값은 멤버가 그룹을 떠난 이벤트를 표시합니다. 회원 자격이 5 년 분석 기간을 초과 한 각 회원에 대해

따라서 로지스틱 회귀 모델은 이진 이벤트 변수의 값을 예측하기 위해 작성됩니다. 여태까지는 그런대로 잘됐다. 이진 예측 모델을 평가하는 일반적인 방법 중 하나는 홀드 아웃 샘플에서 리프트를 측정하는 것입니다. 멤버쉽 종료 이벤트를 예측하기 위해 구축 한 로지스틱 회귀 모델의 경우, 이벤트 대 이벤트가 아닌 비율이 5 대 1 인 홀드 아웃 데이터 세트의 리프트를 계산했습니다. 예측 된 값을 십진수로 순위를 매겼습니다. 가장 높은 예측 값을 가진 십 분위수에는 70 %가 포함되어 있습니다. 결합 된 처음 두 십분의 수는 홀드 아웃에있는 모든 것의 65 %를 포함합니다. 특정 상황에서 이것은 상당히 적절한 예측 모델로 간주되지만 생존 분석을 수행하기에 충분한 지 궁금합니다.

하자 h[j,k] 개인 유해성 함수일 j 개월에서 k 및하자 S[j,k] 확률되도록 개별 j 개월 내지 살아남 k .

다음은 기본적인 질문입니다.

  1. 이산 위험 함수 h[j,k] 는 매달 생존하지 않는 (그룹을 떠나는) 조건부 확률입니까?

  2. 로지스틱 회귀 모형 추정값의 예측값이 위험 함수의 추정값입니까? (즉,이고, 각각의 모델에 대한 예측 된 값과 동일 J 개월에서 K 위험 함수 추정치를 얻기 위해 수행하거나 것을 더 요구합니까?)h[j,k]jk

  3. 개인 개월 Q에 생존까지의 확률 하나의 곱을 뺀 달 하나까지의 위험 함수 동일 Q 이며, 수행 S [ J , Q ] = ( 1 - H [ J , 1 ] ) ( 1 - h [ j , 2 ] ) ( 1 - h [ j , q ] ) ?jqS[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])

  4. 평균 값 개개인의 위에 J 마다 기록이 k는 전체 인구 평균 생존 확률 합리적인 추정을?S[j,k]jk

  5. 전체 인구의 도표는 월별 생존 확률이 월간 Kaplan-Meier 그래프와 유사해야합니까?

이러한 질문에 대한 답변이 아니요 인 경우, 심각한 오해가 있으며 실제로 도움 / 설명을 사용할 수 있습니다. 또한 정확한 생존 프로파일을 생성하기 위해 이진 예측 모델이 얼마나 좋은지에 대한 경험적 규칙이 있습니까?


아마도 이것이 당신의 질문에 도움 될 것입니다
jujae

답변:


7

Kk 의 가장 큰 값 이라고 가정합니다 (즉, 데이터에서 관찰 된 가장 큰 월 / 기간).

  1. 다음은 완전 이산 시간 매개 변수와 매개 변수 벡터 B 하여 조절 변수 X 벡터를 갖는 위험 함수입니다 : hj,k=eαk+BX1+eαk+BX . 위험 함수는 또한 대안적인 시간 매개 변수화 (예를 들어k또는 변수를 모델에서 변수로 포함) 또는 두 하이브리드의 주위에 구축 될 수 있습니다.

    기준 로짓 위험 함수는 시간에 이벤트의 발생 확률을 설명 k , 시간까지 생존 한 것을 조건 k . 모형에 예측 변수 ( X )를 추가하면 이 조건이 더 제한됩니다.

  2. 아니, 로지스틱 회귀 추정 α^1 , , α K , B가 ) 있습니다 하지 유해성 기능 자체가. 로지스틱 회귀 모형 : logit ( h j , k ) = α k + B X , 위의 (1)에서 반 로트리 변환을 수행하여 위험 추정치를 구해야합니다.α^KB^(hj,k)=αk+BX

  3. 예. I가 표기하기 것이지만 S J를 , Q = Π Q = 1 ( 1 - 시간 J를 , I ) . 생존 함수는 시간 k 까지 이벤트가 발생하지 않을 확률이며 , 물론 X에서 조절 될 수도 있습니다 .S^j,q=i=1q(1hj,i)kX

  4. 이것은 미묘한 질문이며 대답이 확실하지 않습니다. 그래도 질문이 있습니다. :) 오른쪽 검열과 이벤트 발생으로 인해 각 기간의 표본 크기가 시간이 지남에 따라 감소합니다. 평균 생존 시간을 계산할 때이 점을 고려 하시겠습니까? 어떻게? "인구"란 무엇을 의미합니까? 귀하의 연구에 일반인이 모집하는 인구는? 아니면 통계 "슈퍼 인구"개념을 의미합니까? 추론은이다 우리가 추정하기 때문에,이 모델에 도전 β 의 자신의 표준 오차,하지만 델타 방법 할 필요성에 대한 표준 오차를 얻기 위해 다시이 - 플립 시간 J , K 유효한 표준을 도출하고, (내 자신의 작품에서) 위한 에러 S의 Jh^j,kS^j,k (I가 올바른 CI 커버리지를 얻을 수없는 경우에만 용지에 작동 S , J , K 조건 모델).S^j,k

  5. 1Sj,k


질문 2에서 OP는 회귀 계수의 추정치가 아닌 로지스틱 모델의 예측 값에 대해 묻고 있다고 생각합니다. 이것은 관련 있을 수 있습니다
jujae

@jujae 나는 # 2에 대한 대답으로 물류 기능을 명시 적으로 제공했으며, 로짓 매개 변수 추정값을 h^()귀하의 의견을 이해하고 있지 않습니다.
Alexis

ant-logit이 필요하지 않은 이진 rv의 성공 확률은 로지스틱 모델의 예측 값이 아닙니다. 그건ypred=exp(βTx)/(1+exp(βTx)) ?
jujae

Back to the original question 2, the OP asked: "Are the predicted values from the logistic regression model estimates of the hazard function?" I would say yes (if my understanding of predicted value is correct). And you are saying no and give the argument that the estimated coefficients are not the same as hazard estimation. I agree with your statement, they are correct but it is not what OP asked from my understanding.
jujae

And for questions 4, I think OP is asking about the survival probability at each interval k and the average of the estimated S^j(k) is indeed a reasonable estimator for S(k). In your answer, you are first referring to mean survival time which is confusing to me as a reader. Meanwhile, I also believe that the estimator we are discussing is essentially Kaplan-meier, and (for instance) Greenwood's variance estimator for KM can be directly used and I fail to appreciate the difficulties you stated above about the calculation of the variances.
jujae
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.