그룹 간의 평균 생존을 비교하는 방법?

12

나는 다른 유형의 Kaplan-Meier를 사용하여 암의 유형에 대한 평균 생존을 조사하고 있습니다. 주들 사이에는 상당히 큰 차이가 있습니다. 어떻게 모든 주들 사이의 평균 생존을 비교하고 전국의 평균 평균 생존과 유의하게 다른 것을 결정할 수 있습니까?

multiple-comparisons survival

— 미샤
소스

pls는 우리가 연구의 설계에 대한 더 나은 아이디어를 얻을 수 있도록 표본 크기, 시간 범위, 생존율 등에 관한 몇 가지 지시를 줄 수 있습니까?

— chl

가장 큰 값을 제외하고 데이터에 검열 된 값이 있습니까?

— ronaf

실제로 데이터에 검열 된 값이 있으며 전체 인구는 약 1500 명이며 전체 생존 중간 값은 18 개월 (범위 300-600 일)입니다. 기간은 2000-2007 년입니다.

— Misha

6

Kaplan-Meier 생존 곡선을 염두에 두어야 할 한 가지는 기본적으로 설명 적이고 비추 론적 이지 않다는 것 입니다. 이는 데이터의 기능 일뿐 아니라 그 뒤에있는 매우 유연한 모델입니다. 이것은 사실상 깨질 수있는 가정은 없지만 일반화하기 어렵고 "신호"뿐만 아니라 "잡음"에도 적합하다는 약점을 의미하기 때문에 강점입니다. 추론을하려면 기본적으로 알고 싶지 않은 것을 소개해야합니다.

이제 평균 생존 시간을 비교하는 한 가지 방법은 다음과 같은 가정을하는 것입니다.

kaplan meier 곡선으로 주어진 각 상태 에 대한 평균 생존 시간 의 추정치가 있습니다. $t_{i}$ $i$
실제 평균 생존 시간 가이 추정치와 같을 것으로 기대합니다 . $T_{i}$ $E(T_{i}|t_{i})=t_{i}$
나는 진정한 평균 생존 시간이 긍정적이라고 100 % 확신합니다. $Pr(T_{i}>0)=1$

이제 이러한 가정을 사용하는 "가장 보수적 인"방법은 최대 엔트로피의 원리이므로 다음과 같은 이점을 얻을 수 있습니다.

p (T_{i} | t_{i}) = K e x p (- λ T_{i})

$p(T_{i}|t_{i})= K exp(-\lambda T_{i})$

여기서 및 다음 PDF 정규화되도록 선택하고있는 기대 값이다 . 이제 우리는 : $K$ $\lambda$ $t_{i}$

1 = \int_{0}^{\infty} p (T_{i} | t_{i}) d T_{i} = K \int_{0}^{\infty} e x p (- λ T_{i}) d T_{i}

$1=\int_{0}^{\infty}p(T_{i}|t_{i})dT_{i} =K \int_{0}^{\infty}exp(-\lambda T_{i})dT_{i}$

= K {[- \frac{e x p (- λ T_{i})}{λ}]}_{T_{i} = 0}^{T_{i} = \infty} = \frac{K}{λ} ⟹ K = λ

$=K \left[-\frac{exp(-\lambda T_{i})}{\lambda}\right]_{T_{i}=0}^{T_{i}=\infty}=\frac{K}{\lambda}\implies K=\lambda$ 그리고 이제 우리는

E (T_{i}) = \frac{1}{λ} ⟹ λ = t_{i}^{- 1}

$E(T_{i})=\frac{1}{\lambda}\implies \lambda=t_{i}^{-1}$

따라서 각 상태에 대한 확률 분포 세트가 있습니다.

p (T_{i} | t_{i}) = \frac{1}{t_{i}} e x p (- \frac{T_{i}}{t_{i}}) (i = 1, \dots, N)

$p(T_{i}|t_{i})= \frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)\;\;\;\;\;(i=1,\dots,N)$

공동 확률 분포는 다음과 같습니다.

p (T_{1}, T_{2}, \dots, T_{N} | t_{1}, t_{2}, \dots, t_{N}) = \prod_{i = 1}^{N} \frac{1}{t_{i}} e x p (- \frac{T_{i}}{t_{i}})

$p(T_{1},T_{2},\dots,T_{N}|t_{1},t_{2},\dots,t_{N})= \prod_{i=1}^{N}\frac{1}{t_{i}} exp\left(-\frac{T_{i}}{t_{i}}\right)$

이제 가설 를 테스트하려는 것처럼 들립니다 여기서 은 평균 중간 생존 시간입니다. 에 대한 테스트에 심각한 대립 가설은 가설 "모든 상태가 독특하고 아름다운 눈송이입니다"입니다 이 있기 때문에 가장 가능성이 높은 대안이므로 더 간단한 가설 ( "최소한도"검정)으로 이동할 때 손실 된 정보를 나타냅니다. 간단한 가설에 대한 증거 측정은 승산 비로 제공됩니다. $H_{0}:T_{1}=T_{2}=\dots=T_{N}=\overline{t}$ $\overline{t}=\frac{1}{N}\sum_{i=1}^{N}t_{i}$ $H_{A}:T_{1}=t_{1},\dots,T_{N}=t_{N}$

O (H_{A} | H_{0}) = \frac{p (T_{1} = t_{1}, T_{2} = t_{2}, \dots, T_{N} = t_{N} | t_{1}, t_{2}, \dots, t_{N})}{p (T_{1} = \bar{t}, T_{2} = \bar{t}, \dots, T_{N} = \bar{t} | t_{1}, t_{2}, \dots, t_{N})}

$O(H_{A}|H_{0})=\frac{p(T_{1}=t_{1},T_{2}=t_{2},\dots,T_{N}=t_{N}|t_{1},t_{2},\dots,t_{N})}{ p(T_{1}=\overline{t},T_{2}=\overline{t},\dots,T_{N}=\overline{t}|t_{1},t_{2},\dots,t_{N})}$

= \frac{[\prod_{i = 1}^{N} \frac{1}{t_{i}}] e x p (- \sum_{i = 1}^{N} \frac{t_{i}}{t_{i}})}{[\prod_{i = 1}^{N} \frac{1}{t_{i}}] e x p (- \sum_{i = 1}^{N} \frac{\bar{t}}{t_{i}})} = e x p (N [\frac{\bar{t}}{t_{h a r m}} - 1])

$=\frac{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{t_{i}}{t_{i}}\right) }{ \left[\prod_{i=1}^{N}\frac{1}{t_{i}}\right] exp\left(-\sum_{i=1}^{N}\frac{\overline{t}}{t_{i}}\right) } =exp\left(N\left[\frac{\overline{t}}{t_{harm}}-1\right]\right)$

어디

t_{h a r m} = {[\frac{1}{N} \sum_{i = 1}^{N} t_{i}^{- 1}]}^{- 1} \leq \bar{t}

$t_{harm}=\left[\frac{1}{N}\sum_{i=1}^{N}t_{i}^{-1}\right]^{-1}\leq \overline{t}$

고조파 평균입니다. 승산은 항상 완벽한 적합을 선호하지만 중간 생존 시간이 합리적으로 가까운 경우에는 그리 많지 않습니다. 또한,이 특정 가설 검정의 증거를 제시하는 직접적인 방법을 제공합니다.

가정 1-3은 모든 주에서 동일한 평균 생존 시간에 대해 의 최대 확률을 제공합니다 $O(H_{A}|H_{0}):1$

이것을 간단한 규칙을 채택하는 것이 얼마나 유리한지 결정 규칙, 손실 함수, 유틸리티 함수 등과 결합하면 결론을 얻습니다!

검정 할 수있는 가설의 양에는 제한이 없으며 유사한 확률을 제공합니다. 가능한 다른 "참 값"세트를 지정 하려면 을 변경하십시오 . 다음과 같이 가설을 선택하여 "의미 테스트"를 수행 할 수 있습니다. $H_{0}$

H_{S, i} : T_{i} = t_{i}, T_{j} = T = {\bar{t}}_{(i)} = \frac{1}{N - 1} \sum_{j \neq i} t_{j}

$H_{S,i}:T_{i}=t_{i},T_{j}=T=\overline{t}_{(i)}=\frac{1}{N-1}\sum_{j\neq i}t_{j}$

따라서이 가설은 구두로 "상태 는 평균 생존율이 다르지만 다른 모든 상태는 동일합니다." 그런 다음 위에서 한 승산 비 계산을 다시 수행하십시오. 대립 가설이 무엇인지주의해야합니다. 아래 중 하나에 대해 "합리적"이라는 점은 귀하가 답변에 관심이있는 질문 일 수 있다는 점입니다 (일반적으로 다른 답변이 있음). $i$

내 위에 정의되어 있습니다. 가 완벽한 맞춤에 비해 얼마나 더 나쁩니 까? $H_{A}$ $H_{S,i}$
내 위에 정의 되어 있습니다. 평균 적합에 비해 가 얼마나 더 좋 습니까? $H_{0}$ $H_{S,i}$
다른 - 상태 와 비교하여 상태 가 얼마나 더 다른가 ? $H_{S,k}$ $k$ $i$

이제 여기서 간과 된 것은 상태들 사이의 상관 관계입니다. 이 구조는 한 상태에서 평균 생존율을 알면 다른 상태에서의 평균 생존율에 대해 아무 것도 알려주지 않는다고 가정합니다. 이것이 "나쁜"것처럼 보일 수 있지만 개선하기는 어렵지 않으며, 위의 계산은 계산하기 쉬운 초기 결과입니다.

상태 사이에 연결을 추가하면 확률 모델이 변경되고 중간 생존 시간의 일부 "풀링"을 효과적으로 볼 수 있습니다. 상관을 분석에 통합하는 한 가지 방법은 실제 생존 시간을 "공통 부분"또는 "추세"와 "개별 부분"의 두 구성 요소로 분리하는 것입니다.

T_{i} = T + U_{i}

$T_{i}=T+U_{i}$

그런 다음 개별 부품 가 데이터를 관찰하기 전에 개별 변동에 대해 어떤 지식을 가지고 있는지에 대한 사전 설명을 사용하여 통합 할 모든 단위에 대해 평균 영점이 0이고 알 수없는 분산 가 통합되도록 제한합니다. jeffreys가 문제를 일으키는 경우에는 아무것도 모르고 절반은 조심하십시오. $U_{i}$ $\sigma$

— 확률 론적
소스

(+1) 매우 흥미 롭습니다. 귀하의 게시물을 통해 답변에 의견을 삽입했습니다.

— GaBorgulya

어쩌면 내가 놓쳤지만 은 어디에 정의되어 있습니까?

M_{1}

$M_1$

— 추기경

@ cardinal, 내 사과-오타. 제거됩니다

— probabilityislogic

사과 할 필요가 없습니다. 내가 읽는 동안 그것을 건너 뛰었는지 또는 명백한 것이 누락되었는지 확실하지 않았습니다.

— 추기경

4

이 주제에 추가하여 검열을 통한 Quantile 회귀에 관심이 있다고 생각했습니다. Bottai & Zhang 2010 은이 작업을 수행 할 수있는 "Laplace Regression"을 제안했습니다 . 여기 에서 PDF를 찾을 수 있습니다 . 이를 위해 Stata 용 패키지가 있지만, R의 quantreg 패키지 는 옵션 일 수있는 검열 된 Quantile 회귀 ( crq) 함수를 가지고 있지만 R로 아직 변환되지 않았습니다 .

나는 그 접근법이 매우 흥미롭고 비율이 위험한 환자들에게는 훨씬 더 직관적이라고 생각합니다. 예를 들어 약을 복용하지 않은 약보다 약 2 개월 더 약의 50 %가 생존하고 부작용으로 인해 병원에서 1-2 개월을 머무르게되면 치료 선택이 훨씬 쉬워 질 수 있습니다.

— 맥스 고든
소스

"Laplace Regression"을 모르지만 두 번째 단락과 관련하여 정확하게 이해하고 있는지 궁금합니다. 일반적으로 생존 분석 (실패한 고장 시간 측면에서 생각할 때)에서는 '약 그룹의 50 번째 백분위 수가 대조군의 50 %보다 2 개월 늦게 나옵니다'와 같은 것을 말할 것입니다. 이것이 의미하는 바입니까, 아니면 LR의 결과가 다른 해석을 할 수 있습니까?

— gung-복직 모니카

@ gung : 당신이 당신의 해석에 맞다고 생각합니다-텍스트가 더 좋았습니까? 최근 코스에서 발견되었지만 회귀 모델을 직접 사용하지 않았습니다. Tt는 내가 많이 사용했던 일반 콕스 모델에 대한 흥미로운 대안입니다. 아이디어를 소화하는 데 더 많은 시간을 할애해야 할지라도 환자에게 설명 할 때 KM 곡선을 자주 사용하기 때문에 환자에게 설명하는 것이 더 쉽다고 생각합니다. HR은 상대 위험과 절대 위험의 차이를 이해하는 데 시간이 걸리는 개념을 설명합니다.

— Max Gordon

econ.uiuc.edu/~roger/research/crq/note.pdf

— Misha

링크 주셔서 감사합니다 @Misha. 저자는 여기에 회신을합니다 : onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract

— Max Gordon

3

먼저 데이터를 시각화합니다. 각 주에서 평균 생존에 대한 신뢰 구간 및 표준 오류를 계산하고 깔때기 플롯을 사용하여 산림 플롯, 중앙값 및 해당 SE에 CI를 표시합니다.

"전국의 평균 평균 생존"은 데이터에서 추정되는 양이므로 불확실성이 있으므로 유의성 테스트 동안이를 날카로운 기준값으로 취할 수 없습니다. 전체 평균 접근 방식의 또 다른 어려움은 상태 중앙값을 비교할 때 해당 수량을 이미 구성 요소로 포함하는 수량과 비교하는 것입니다. 따라서 각 상태를 다른 모든 상태와 비교하는 것이 더 쉽습니다 . 이는 각 상태에 대해 로그 순위 테스트 (또는 대안)를 수행하여 수행 할 수 있습니다.
(확률 론적 답변을 읽은 후 편집 : 로그 순위 테스트는 두 개 이상의 그룹에서 생존을 비교하지만 엄격하게 비교하는 중앙값은 아닙니다. 비교할 중앙값인지 확실하다면, 그의 방정식에 의존하거나 여기에서 리샘플링을 사용할 수도 있습니다)

귀하는 귀하의 질문에 [다중 비교]라고 표시 했으므로, 적어도 하나의 조정 된 p 값이 5 % 미만인 경우 p 상태를 조정 (증가)하고 싶다고 가정합니다. 5 % 유의 수준에서 동일하지 않습니다. Bonferroni와 같이 일반적이고 지나치게 보수적 인 방법을 사용할 수 있지만 최적의 보정 체계는 p 값의 상관 관계를 고려합니다. 나는 당신이 보정 체계에 대한 사전 지식을 구축하고 싶지 않다고 가정하므로 조정에 각 p 값에 동일한 C 상수를 곱하는 체계에 대해 논의 할 것입니다.

최적의 C 멀티 플라이어 를 얻기 위해 공식을 도출하는 방법을 모르므로 리샘플링 을 사용 합니다. 귀무 가설 하에서 생존 특성은 모든 주에서 동일하므로 암 사례의 상태 레이블을 바꾸고 중앙값을 다시 계산할 수 있습니다. 상태 p 값의 다수의 재 샘플링 된 벡터를 얻은 후, 벡터의 95 % 미만이 유의 한 p 값을 포함하지 않고 95 % 초과를 초과하는 C 멀티 플라이어를 수치 적으로 발견 할 것이다. 범위가 넓어 보이지만 재 샘플 수를 반복적으로 증가시킵니다.

— 가보 리야
소스

데이터 시각화에 대한 좋은 조언. (+1)

— probabilityislogic

@probabilityislogic 감사합니다! 또한 건설적인 경우 비판도 환영합니다.

— GaBorgulya

내가 가지고있는 유일한 비판은 p- 값을 사용하는 것입니다. 그러나 이것은 귀하의 답변보다 "어깨에 칩"입니다. p- 값을 사용하려는 경우 권장하는 것이 좋습니다. p- 값을 사용하는 것이 좋다고 생각하지 않습니다. p- 값에 대한 의견에서 @eduardo와의 교환에 대해서는 여기 를 참조하십시오 .

— chanceislogic