로지스틱 회귀 모델을 사용하여 불연속 시간 생존 분석을 수행하려고하는데 프로세스를 완전히 이해하지 못했습니다. 몇 가지 기본적인 질문에 도움을 주셔서 감사합니다.
설정은 다음과 같습니다.
5 년 내에 그룹 멤버십을보고 있습니다. 각 회원은 해당 회원이 그룹에 속한 각 달의 월별 회원 기록을 보유합니다. 5 년 동안 멤버십을 시작한 모든 멤버를 고려하고 있습니다 (이전에 가입 한 멤버의 "왼쪽 검열"문제 방지). 각 레코드는 시간별로 색인화되며 시간은 멤버가 가입 한 달입니다. 따라서 2 년 반 동안 머무는 회원은 월별 30 건의 기록을 갖게되며 1에서 30까지 기록됩니다. 각 레코드에는 또한 이진 변수가 제공되는데,이 변수는 지난 달 멤버십에 대해 1의 값을 가지며 그렇지 않으면 0입니다. 이진 변수에 대해 1 값은 멤버가 그룹을 떠난 이벤트를 표시합니다. 회원 자격이 5 년 분석 기간을 초과 한 각 회원에 대해
따라서 로지스틱 회귀 모델은 이진 이벤트 변수의 값을 예측하기 위해 작성됩니다. 여태까지는 그런대로 잘됐다. 이진 예측 모델을 평가하는 일반적인 방법 중 하나는 홀드 아웃 샘플에서 리프트를 측정하는 것입니다. 멤버쉽 종료 이벤트를 예측하기 위해 구축 한 로지스틱 회귀 모델의 경우, 이벤트 대 이벤트가 아닌 비율이 5 대 1 인 홀드 아웃 데이터 세트의 리프트를 계산했습니다. 예측 된 값을 십진수로 순위를 매겼습니다. 가장 높은 예측 값을 가진 십 분위수에는 70 %가 포함되어 있습니다. 결합 된 처음 두 십분의 수는 홀드 아웃에있는 모든 것의 65 %를 포함합니다. 특정 상황에서 이것은 상당히 적절한 예측 모델로 간주되지만 생존 분석을 수행하기에 충분한 지 궁금합니다.
하자 개인 유해성 함수일 개월에서 및하자 확률되도록 개별 개월 내지 살아남 .
다음은 기본적인 질문입니다.
이산 위험 함수 는 매달 생존하지 않는 (그룹을 떠나는) 조건부 확률입니까?
로지스틱 회귀 모형 추정값의 예측값이 위험 함수의 추정값입니까? (즉,이고, 각각의 모델에 대한 예측 된 값과 동일 J 개월에서 K 위험 함수 추정치를 얻기 위해 수행하거나 것을 더 요구합니까?)
개인 개월 Q에 생존까지의 확률 하나의 곱을 뺀 달 하나까지의 위험 함수 동일 Q 이며, 수행 S [ J , Q ] = ( 1 - H [ J , 1 ] ) ⋅ ( 1 - h [ j , 2 ] ) ⋅ … ⋅ ( 1 - h [ j , q ] ) ?
평균 값 개개인의 위에 J 마다 기록이 k는 전체 인구 평균 생존 확률 합리적인 추정을?
전체 인구의 도표는 월별 생존 확률이 월간 Kaplan-Meier 그래프와 유사해야합니까?
이러한 질문에 대한 답변이 아니요 인 경우, 심각한 오해가 있으며 실제로 도움 / 설명을 사용할 수 있습니다. 또한 정확한 생존 프로파일을 생성하기 위해 이진 예측 모델이 얼마나 좋은지에 대한 경험적 규칙이 있습니까?