데이터가 누락 된 생존 모델이 적절한 지 어떻게 확인합니까?


9

약간 단순화하면서, 약 10 년에 걸친 시스템에서 사람들의 출입 시간과 출입 시간을 기록한 약 백만 개의 레코드가 있습니다. 모든 레코드에는 시작 시간이 있지만 모든 레코드에는 종료 시간이 없습니다. 시스템의 평균 시간은 ~ 1 년입니다.

누락 된 종료 시간은 두 가지 이유로 발생합니다.

  1. 데이터를 캡처 할 때 시스템을 떠나지 않았습니다.
  2. 그 사람의 퇴장 시간은 기록되지 않았습니다. 이것은 기록의 50 %를 말하는 것입니다

관심있는 질문은 다음과 같습니다.

  1. 사람들이 시스템에서 더 적은 시간을 소비하고 얼마나 많은 시간을 소비합니까?
  2. 더 많은 종료 시간이 기록되고 있으며 몇 개입니까?

출구가 기록 될 확률은 시간에 따라 선형 적으로 변하고 시스템의 시간에는 매개 변수가 시간에 따라 선형으로 변하는 Weibull이 있다고 말함으로써이를 모델링 할 수 있습니다. 그런 다음 다양한 모수의 최대 우도 추정을 수행하고 결과를 시인하고 그 결과를 타당하다고 생각할 수 있습니다. Weibull 분포는 수명 측정에 사용되는 것처럼 보이며 감마 분포보다 데이터를 더 잘 맞추는 것이 아니라 재미 있기 때문에 선택했습니다.

이 작업을 올바르게 수행하는 방법에 대한 실마리를 어디서 찾아야합니까? 우리는 다소 수학적으로 정통하지만 통계적으로 정통하지는 않습니다.

답변:


5

데이터가 Weibull인지 확인하는 기본 방법 은 누적 위험 로그와 시간 로그 를 플로팅 하고 직선이 적합한 지 확인하는 것입니다. 비모수 Nelson-Aalen 추정기를 사용하여 누적 위험을 찾을 수 있습니다. 공변량에 데이터를 적합시키고 일부 참조가 따르는 경우 Weibull 회귀 분석에 대한 유사한 그래픽 진단 이 있습니다 .

클라인 & Moeschberger 텍스트는 꽤 좋은이며, 파라 메트릭 및 반 파라 메트릭 모델에 대한 모델 구축 / 진단 지상의 많은 (하지만 주로 후자)를 포함한다. R에서 일하고 있다면 Theneau의 책 은 꽤 좋습니다 (나는 그가 생존 패키지 를 썼다고 생각 합니다). 여기에는 많은 Cox PH 및 관련 모델이 포함되지만, 모델과 같은 파라 메트릭 모델이 많이 포함되어 있는지는 기억 나지 않습니다.

BTW,이 작은 수의 사람들을 위해 각각 하나의 출입국 또는 재입국 / 출국 행사가있는 백만 명의 사람들입니까? 검열 메커니즘을 설명 할 가능성을 조절하고 있습니까?


고마워, 이것은 내가 찾던 것입니다. 이것은 본질적으로 출입 시간이 각각 백만 명입니다. 그렇습니다. 우리는 검열을 설명하기 위해 조절하고 있습니다.
deinst

2

예상 모델을 사용하여 시스템에있는 모든 사람의 종료 시간을 예측할 수 있습니다. 그런 다음 예상 종료 시간과 실제 종료 시간 (이 데이터가있는 위치)을 비교하고 RMSE 와 같은 메트릭을 계산 하여 예측이 얼마나 좋은지 평가하여 모델 적합성을 얻을 수 있습니다. 이 링크를 참조하십시오 .


1
밀리언 포인트와 8 개의 모수 모델을 사용하면 카이 제곱과 같은 적합도 검정은 모형이 정확할 가능성이 거의 없다는 것을 나타냅니다. RMSE는 나에게 같은 모델이 데이터를 맞는 얼마나 잘에 감각을 제공하지만, 나에게 더 나은 모델이 있는지 여부의 감각을 제공하지 않습니다 (어떤 모델에없는 현실에 영향을 미치는 끝없는 요인이 있기 때문에, 놀라운 일이 아니다)
deinst

더 나은 모델이 있는지 확인하기 위해 다른 공식을 실험하거나 다양한 플롯 (예 : 종료 시간 대 시간)을 사용하여 데이터가 모델 가정과 일치하는지 확인할 수 있습니다. 또한 실제 개선 된 시간에 무작위로 선택된 작은 샘플의 예측 종료 시간을 모델 개선 아이디어를 위해 플롯 할 수 있습니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.