나는 다른 유형의 Kaplan-Meier를 사용하여 암의 유형에 대한 평균 생존을 조사하고 있습니다. 주들 사이에는 상당히 큰 차이가 있습니다. 어떻게 모든 주들 사이의 평균 생존을 비교하고 전국의 평균 평균 생존과 유의하게 다른 것을 결정할 수 있습니까?
나는 다른 유형의 Kaplan-Meier를 사용하여 암의 유형에 대한 평균 생존을 조사하고 있습니다. 주들 사이에는 상당히 큰 차이가 있습니다. 어떻게 모든 주들 사이의 평균 생존을 비교하고 전국의 평균 평균 생존과 유의하게 다른 것을 결정할 수 있습니까?
답변:
Kaplan-Meier 생존 곡선을 염두에 두어야 할 한 가지는 기본적으로 설명 적이고 비추 론적 이지 않다는 것 입니다. 이는 데이터의 기능 일뿐 아니라 그 뒤에있는 매우 유연한 모델입니다. 이것은 사실상 깨질 수있는 가정은 없지만 일반화하기 어렵고 "신호"뿐만 아니라 "잡음"에도 적합하다는 약점을 의미하기 때문에 강점입니다. 추론을하려면 기본적으로 알고 싶지 않은 것을 소개해야합니다.
이제 평균 생존 시간을 비교하는 한 가지 방법은 다음과 같은 가정을하는 것입니다.
이제 이러한 가정을 사용하는 "가장 보수적 인"방법은 최대 엔트로피의 원리이므로 다음과 같은 이점을 얻을 수 있습니다.
여기서 및 다음 PDF 정규화되도록 선택하고있는 기대 값이다 . 이제 우리는 :
따라서 각 상태에 대한 확률 분포 세트가 있습니다.
공동 확률 분포는 다음과 같습니다.
이제 가설 를 테스트하려는 것처럼 들립니다 여기서 은 평균 중간 생존 시간입니다. 에 대한 테스트에 심각한 대립 가설은 가설 "모든 상태가 독특하고 아름다운 눈송이입니다"입니다 이 있기 때문에 가장 가능성이 높은 대안이므로 더 간단한 가설 ( "최소한도"검정)으로 이동할 때 손실 된 정보를 나타냅니다. 간단한 가설에 대한 증거 측정은 승산 비로 제공됩니다.
어디
고조파 평균입니다. 승산은 항상 완벽한 적합을 선호하지만 중간 생존 시간이 합리적으로 가까운 경우에는 그리 많지 않습니다. 또한,이 특정 가설 검정의 증거를 제시하는 직접적인 방법을 제공합니다.
가정 1-3은 모든 주에서 동일한 평균 생존 시간에 대해 의 최대 확률을 제공합니다
이것을 간단한 규칙을 채택하는 것이 얼마나 유리한지 결정 규칙, 손실 함수, 유틸리티 함수 등과 결합하면 결론을 얻습니다!
검정 할 수있는 가설의 양에는 제한이 없으며 유사한 확률을 제공합니다. 가능한 다른 "참 값"세트를 지정 하려면 을 변경하십시오 . 다음과 같이 가설을 선택하여 "의미 테스트"를 수행 할 수 있습니다.
따라서이 가설은 구두로 "상태 는 평균 생존율이 다르지만 다른 모든 상태는 동일합니다." 그런 다음 위에서 한 승산 비 계산을 다시 수행하십시오. 대립 가설이 무엇인지주의해야합니다. 아래 중 하나에 대해 "합리적"이라는 점은 귀하가 답변에 관심이있는 질문 일 수 있다는 점입니다 (일반적으로 다른 답변이 있음).
이제 여기서 간과 된 것은 상태들 사이의 상관 관계입니다. 이 구조는 한 상태에서 평균 생존율을 알면 다른 상태에서의 평균 생존율에 대해 아무 것도 알려주지 않는다고 가정합니다. 이것이 "나쁜"것처럼 보일 수 있지만 개선하기는 어렵지 않으며, 위의 계산은 계산하기 쉬운 초기 결과입니다.
상태 사이에 연결을 추가하면 확률 모델이 변경되고 중간 생존 시간의 일부 "풀링"을 효과적으로 볼 수 있습니다. 상관을 분석에 통합하는 한 가지 방법은 실제 생존 시간을 "공통 부분"또는 "추세"와 "개별 부분"의 두 구성 요소로 분리하는 것입니다.
그런 다음 개별 부품 가 데이터를 관찰하기 전에 개별 변동에 대해 어떤 지식을 가지고 있는지에 대한 사전 설명을 사용하여 통합 할 모든 단위에 대해 평균 영점이 0이고 알 수없는 분산 가 통합되도록 제한합니다. jeffreys가 문제를 일으키는 경우에는 아무것도 모르고 절반은 조심하십시오.
이 주제에 추가하여 검열을 통한 Quantile 회귀에 관심이 있다고 생각했습니다. Bottai & Zhang 2010 은이 작업을 수행 할 수있는 "Laplace Regression"을 제안했습니다 . 여기 에서 PDF를 찾을 수 있습니다 . 이를 위해 Stata 용 패키지가 있지만, R의 quantreg 패키지 는 옵션 일 수있는 검열 된 Quantile 회귀 ( crq) 함수를 가지고 있지만 R로 아직 변환되지 않았습니다 .
나는 그 접근법이 매우 흥미롭고 비율이 위험한 환자들에게는 훨씬 더 직관적이라고 생각합니다. 예를 들어 약을 복용하지 않은 약보다 약 2 개월 더 약의 50 %가 생존하고 부작용으로 인해 병원에서 1-2 개월을 머무르게되면 치료 선택이 훨씬 쉬워 질 수 있습니다.
먼저 데이터를 시각화합니다. 각 주에서 평균 생존에 대한 신뢰 구간 및 표준 오류를 계산하고 깔때기 플롯을 사용하여 산림 플롯, 중앙값 및 해당 SE에 CI를 표시합니다.
"전국의 평균 평균 생존"은 데이터에서 추정되는 양이므로 불확실성이 있으므로 유의성 테스트 동안이를 날카로운 기준값으로 취할 수 없습니다. 전체 평균 접근 방식의 또 다른 어려움은 상태 중앙값을 비교할 때 해당 수량을 이미 구성 요소로 포함하는 수량과 비교하는 것입니다. 따라서 각 상태를 다른 모든 상태와 비교하는 것이 더 쉽습니다 . 이는 각 상태에 대해 로그 순위 테스트 (또는 대안)를 수행하여 수행 할 수 있습니다.
(확률 론적 답변을 읽은 후 편집 : 로그 순위 테스트는 두 개 이상의 그룹에서 생존을 비교하지만 엄격하게 비교하는 중앙값은 아닙니다. 비교할 중앙값인지 확실하다면, 그의 방정식에 의존하거나 여기에서 리샘플링을 사용할 수도 있습니다)
귀하는 귀하의 질문에 [다중 비교]라고 표시 했으므로, 적어도 하나의 조정 된 p 값이 5 % 미만인 경우 p 상태를 조정 (증가)하고 싶다고 가정합니다. 5 % 유의 수준에서 동일하지 않습니다. Bonferroni와 같이 일반적이고 지나치게 보수적 인 방법을 사용할 수 있지만 최적의 보정 체계는 p 값의 상관 관계를 고려합니다. 나는 당신이 보정 체계에 대한 사전 지식을 구축하고 싶지 않다고 가정하므로 조정에 각 p 값에 동일한 C 상수를 곱하는 체계에 대해 논의 할 것입니다.
최적의 C 멀티 플라이어 를 얻기 위해 공식을 도출하는 방법을 모르므로 리샘플링 을 사용 합니다. 귀무 가설 하에서 생존 특성은 모든 주에서 동일하므로 암 사례의 상태 레이블을 바꾸고 중앙값을 다시 계산할 수 있습니다. 상태 p 값의 다수의 재 샘플링 된 벡터를 얻은 후, 벡터의 95 % 미만이 유의 한 p 값을 포함하지 않고 95 % 초과를 초과하는 C 멀티 플라이어를 수치 적으로 발견 할 것이다. 범위가 넓어 보이지만 재 샘플 수를 반복적으로 증가시킵니다.