약간 단순화하면서, 약 10 년에 걸친 시스템에서 사람들의 출입 시간과 출입 시간을 기록한 약 백만 개의 레코드가 있습니다. 모든 레코드에는 시작 시간이 있지만 모든 레코드에는 종료 시간이 없습니다. 시스템의 평균 시간은 ~ 1 년입니다.
누락 된 종료 시간은 두 가지 이유로 발생합니다.
- 데이터를 캡처 할 때 시스템을 떠나지 않았습니다.
- 그 사람의 퇴장 시간은 기록되지 않았습니다. 이것은 기록의 50 %를 말하는 것입니다
관심있는 질문은 다음과 같습니다.
- 사람들이 시스템에서 더 적은 시간을 소비하고 얼마나 많은 시간을 소비합니까?
- 더 많은 종료 시간이 기록되고 있으며 몇 개입니까?
출구가 기록 될 확률은 시간에 따라 선형 적으로 변하고 시스템의 시간에는 매개 변수가 시간에 따라 선형으로 변하는 Weibull이 있다고 말함으로써이를 모델링 할 수 있습니다. 그런 다음 다양한 모수의 최대 우도 추정을 수행하고 결과를 시인하고 그 결과를 타당하다고 생각할 수 있습니다. Weibull 분포는 수명 측정에 사용되는 것처럼 보이며 감마 분포보다 데이터를 더 잘 맞추는 것이 아니라 재미 있기 때문에 선택했습니다.
이 작업을 올바르게 수행하는 방법에 대한 실마리를 어디서 찾아야합니까? 우리는 다소 수학적으로 정통하지만 통계적으로 정통하지는 않습니다.