생존 분석 : 연속 대 이산 시간


20

생존 분석에서 시간을 연속 또는 불연속으로 처리할지 여부를 결정하는 방법에 대해 혼란스러워합니다. 특히 생존 분석을 사용하여 남학생과 여학생의 생존 (5 세까지)에 미치는 영향이 가장 큰 아동 및 가정 수준 변수를 식별하려고합니다. 아동 연령 (개월), 아동의 생존 여부, 사망 연령 (개월) 및 기타 아동 및 가구 수준 변수에 대한 지표와 함께 데이터 세트가 있습니다.

시간은 몇 개월로 기록되고 모든 어린이는 5 세 미만이므로 많은 묶인 생존 시간이 있습니다 (종종 반년 간격 : 0mos, 6mos, 12mos 등). 생존 분석에 대해 읽은 내용을 바탕으로 생존 시간을 많이 묶으면 시간을 별개의 것으로 취급해야한다고 생각합니다. 그러나 나는 생존 시간이 예를 들어 사람 년 (따라서 생존 시간이 묶여 있음)에 있고 콕스 비례 위험과 같은 연속 시간 방법이 사용되는 몇 가지 다른 연구를 읽었습니다.

시간을 연속 또는 불연속으로 처리할지 여부를 결정하기 위해 사용해야하는 기준은 무엇입니까? 내 데이터와 질문에 대해 일부 연속 시간 모델 (Cox, Weibull 등)을 사용하면 직관적으로 이해할 수 있지만 내 데이터의 이산 적 특성과 묶여있는 생존 시간은 그렇지 않은 것으로 보입니다.

답변:


10

생존 모델의 선택은 근본적인 현상에 따라 이루어져야합니다. 이 경우 데이터가 다소 분리 된 방식으로 수집 되더라도 연속적인 것처럼 보입니다. 한 달의 결의안은 5 년에 걸쳐 괜찮을 것입니다. 그러나 6 개월과 12 개월의 많은 유대 관계는 실제로 1 개월의 정밀도를 가졌는지 궁금해합니다. 나는 이것이 간격 검열보다는 사실 후 반올림을 반영하기 때문에 당신이 할 수있는 일이 확실하지 않습니다.


2
일반적으로 이산 데이터를 10 개 이상의 부분으로 나눌 수있는 경우 실제로 이산적인 경우에도 연속으로 처리 할 수 ​​있습니다 (6 개월 동안 한 달에 한 번 샘플링하면 6 개월 동안 매주 샘플링하는 것과는 매우 다릅니다) 또는 2 년 동안 한 달에 한 번). 다음 기사는 또한 불연속 데이터를 연속적인 것으로 취급하는 데 대한 추가 정보를 제공합니다. theanalysisfactor.com/count-data-considered-continuous
Tavrock

4

연속 시간 모델을 사용하는 경우 정확한 고장 시간을 모르고 고장이 발생한 간격을 반영하여 간격 검열을 사용하고 싶을 것입니다. 최대 유사도를 사용하여 간격 검열을 사용하여 파라 메트릭 회귀 모형을 적합시키는 경우 묶인 생존 시간은 IIRC 문제가 아닙니다.


4

대부분의 분석에서 생존 시간이 결부 될 것이지만, 특정 사건에서 크고 명확한 관계가 문제가되고 있습니다. 연구 자체, 데이터 수집 방법 등에 대해 오랫동안 열심히 생각합니다.

일부 방법론 이외에도 한 가지 유형의 시간 또는 다른 유형을 사용해야하므로 생존을 모델링하는 방법은 기본 프로세스가 전 세계에서 불연속 적이거나 연속적인지 여부에 따라 달라집니다.


1

일부 개인에 대해 시간에 따라 변하는 공변량이있는 경우 (예 : 가족 소득이 아동의 수명에 따라 다를 수 있음) 생존 모델 (모수 및 콕스 모델)에서는 데이터를 다음과 같이 정의 된 개별 간격으로 분할해야합니다 다양한 공변량.

German Rodriguez의 강의 노트 PDF 가 도움 이되었다는 것을 알았습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.