누적 위험 함수에 대한 직감 (생존 분석)


17

보험 계리 과학의 각 주요 기능 (특히 Cox 비례 위험 모델)에 대한 직감을 얻으려고합니다. 여기까지 내가 가진 것입니다 :

  • f(x) : 시작 시간에 시작하여 사망 할 확률 분포.
  • F(x) : 누적 분포입니다. 시간 , 인구의 몇 %가 죽을 것인가?T
  • S(x) : . 시간 에 인구의 몇 %가 살아 있습니까?1F(x)T
  • h(x) : 위험 기능. 주어진 시간 , 여전히 살아있는 사람들 중, 이것은 다음 시간 간격에서 얼마나 많은 사람들이 죽을 것인지, 또는 간격이-> 0 인 경우, '즉시'사망 확률을 추정하는 데 사용될 수 있습니다.T
  • H(x) : 누적 위험. 몰라요.

특히 연속적인 경우 위험 값을 결합하는 아이디어는 무엇입니까? 우리가 사계절에 걸쳐 사망률을 가진 별개의 예를 사용하는 경우 위험 기능은 다음과 같습니다.

  • 봄부터는 모두가 살아 있고 20 %가 죽을 것입니다
  • 여름에는 남은 사람들 중 50 %가 죽을 것입니다
  • 이제 가을에 남은 사람들 중 75 %가 죽을 것입니다
  • 마지막 시즌은 겨울입니다. 남은 사람들 중 100 %가 죽을 것입니다

그러면 누적 위험은 20 %, 70 %, 145 %, 245 %입니다. 이것이 무엇을 의미하며 왜 이것이 유용합니까?


1
귀하의 는 이거나 그 반대 이어야합니다 . Tx
Glen_b-복지 모니카

5
와 관련 하여 실수가 있습니다 (매우 혼동 스럽지만). "간격-> 0, '즉시'사망 확률"이라고 씁니다. 원래 올바른 문장은 '순간 죽음이 될 것입니다 속도 '. 로 나눈 확률이므로 확률이 될 수 없습니다 . 또한,> 1 일 수 있습니다. h(x)dt
gung-모니 티 복원

답변:


6

당신이 죽어가는 비율을 결합하면 누적 위험이 없습니다. 연속 시간의 위험률은 매우 짧은 간격 동안 이벤트가 발생할 수있는 조건부 확률입니다.

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

누적 위험은 연령 / 시간에 따라 (즉시) 위험률을 통합합니다. 그것은 확률을 합산하는 것과 같지만 가 매우 작기 때문에 이러한 확률도 적습니다 (예 : 사망 위험률은 약 30 세에서 약 0.004 일 수 있습니다). 위험률은 t 이전에 이벤트를 경험하지 않은 경우 조건부 이므로 모집단의 경우 1을 초과 할 수 있습니다.Δtt

불연속 시간 공식이지만 인간의 사망률 생명 테이블을 찾아 를 축적하려고합니다 .mx

R을 사용하는 경우, 1 년마다 각 사망 간격에서 이러한 기능을 근사하는 간단한 예가 있습니다.

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

도움이 되었기를 바랍니다.


h (t) * dt가 t 주위의 길이 dt 간격으로 이벤트가 발생할 확률이라고 말하는 것이 맞습니까? 따라서, 값 h (t)는 t를 중심으로 한 1 시간 단위 내에서 이벤트가 발생할 확률이다. 이것은 h (t) <= 1 인 경우에만 해당됩니다.
crow

10

Mario Cleves의 "Stata를 사용한 생존 분석에 대한 소개"(2 판) 책은 그 주제에 대해 좋은 장을 가지고 있습니다.

Google 도서 에서 해당 장을 찾을 수 있습니다 . 13-15. 그러나 나는 2 장 전체를 읽는 것에 대해 조언 할 것입니다.

짧은 형식은 다음과 같습니다.

  • "시간 t까지 누적 된 총 위험 량을 측정합니다"(8 페이지)
  • 카운트 데이터 해석 : "실패 이벤트 만 반복 가능한 경우 주어진 기간 동안 (수학적으로) 실패 (또는 다른 이벤트)를 관찰 할 것으로 예상되는 횟수를 제공합니다."(13 페이지)

5

나는 것 의한 위험 은 진단 플롯에서의 사용으로 인해 주목할만한 있다는 추측 :

콕스 비례 위험 모델 (1) , βZ은 계수 각각 공변량 벡터, 아르 H 0 ( X는 ) 기준선 위험 함수이고; 및 이렇게 로그 H ( X ) = β T Z + H 0 ( X ) . 당신은 추정 플롯 경우 로그 H ( X를 )h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x) 에 대해 비례 위험 가정이 올바른 경우 다른 공변량 패턴이 평행 곡선을 따릅니다.x

(2)와 이블 모형에서 h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^Weibull 가정이 올바른 경우. 물론 1에 가까운 기울기는 지수 모델이 적합 할 수 있음을 나타냅니다.

H(x)x


3

@Scortchi가 말한 것을 표현할 때, 누적 위험 함수는 훌륭하게 해석되지 않으므로 결과를 해석하는 방법으로 사용하지 않을 것임을 강조합니다. 비 통계 연구자에게 누적 위험이 다르다고 말하면 아마도 "mm-hm"답변이 될 것입니다. 그러면 그들은 주제에 대해 다시는 묻지 않을 것이며 좋은 방법은 아닙니다.

그러나 누적 위험 함수는 위험 함수와 생존 함수를 연결하는 일반적인 방법과 같이 수학적으로 매우 유용한 것으로 판명되었습니다. 따라서 누적 위험이 무엇인지, 그리고 다양한 통계적 방법에 어떻게 사용될 수 있는지 아는 것이 중요합니다. 그러나 일반적으로 누적 위험 측면에서 실제 데이터에 대해 생각하는 것이 특히 유용하다고 생각하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.