카플란-마이어 곡선은 콕스 회귀와는 달리


9

R에서는 암 환자의 생존 데이터 분석을하고 있습니다.

CrossValidated 및 기타 장소에서 생존 분석에 대해 매우 유용한 내용을 읽었으며 Cox 회귀 결과를 해석하는 방법을 이해했다고 생각합니다. 그러나 하나의 결과로 여전히 버그가 발생합니다 ...

생존과 성별을 비교하고 있습니다. Kaplan-Meier 곡선은 여성 환자에게 유리합니다 (추가 한 범례가 올바른지 여러 번 확인했습니다. 최대 생존률이 4856 일인 여성은 실제로 여성입니다). 여기에 이미지 설명을 입력하십시오

그리고 콕스 회귀는 돌아오고 있습니다 :

Call:
coxph(formula = survival ~ gender, data = Clinical)

  n= 348, number of events= 154 

              coef exp(coef) se(coef)      z Pr(>|z|)  
gendermale -0.3707    0.6903   0.1758 -2.109    0.035 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

           exp(coef) exp(-coef) lower .95 upper .95
gendermale    0.6903      1.449    0.4891    0.9742

Concordance= 0.555  (se = 0.019 )
Rsquare= 0.012   (max possible= 0.989 )
Likelihood ratio test= 4.23  on 1 df,   p=0.03982
Wald test            = 4.45  on 1 df,   p=0.03499
Score (logrank) test = 4.5  on 1 df,   p=0.03396

따라서 남성 환자의 위험 비율 (HR gendermale)은 0.6903입니다. 내가 Kaplan-Meier 곡선을 보지 않고 해석하는 방법은 다음과 같습니다. HR이 <1이므로 남성 성별의 환자가 보호됩니다. 보다 정확하게 말하면, 여성 환자는 남성보다 특정 시간에 사망 할 확률이 1 / 0.6903 = exp (-coef) = 1.449입니다.

그러나 그것은 Kaplan-Meier 곡선이 말하는 것과 같지 않습니다! 내 해석에 어떤 문제가 있습니까?


3
KM 곡선에서 Cox 회귀의 PH 가정이 보류되지 않은 것 같습니다.
딥 노스

내가 참조. 나는 전에 그것을 보지 못했습니다! 그래픽 적으로, 이는 Kaplan-Meier 곡선이 평행해야 Cox를 안전하게 사용할 수 있다는 의미입니다. ~ 2200 일 전에는 다소 괜찮아 보입니다. 교차점 앞의 모든 데이터에 대한 Cox 결과를 보는 것이 괜찮습니까?
francoiskroll

4
NB 그것은 곡선이다 loglogS^i(t), 어디 S^i(t) 그룹의 추정 생존 함수입니다 i비례 위험에서는 평행해야합니다. @IWS가 지적한 바와 같이, 약 3000 일 후에 여성 그룹에 대한 신뢰 구간은 매우 넓을 것입니다 (해당 지점을 2 개만 만들었습니까?). PH 가정 그렇게 나쁘지 않을 수 있습니다.
Scortchi-Monica Monica 복원

@ DeepNorth : 비례 위험에 대한 강력한 증거는 없습니다. 예, 커브는 기술적으로 겹칩니다. 그러나 그것은 극단적 인 꼬리에 있습니다.
Cliff AB

다른 답변과 의견을 보완하기 위해 남성과 여성의 평균 생존 또는 5 년 생존을 비교하십시오. Cox PH 분석과 일치하여이 데이터에서 남성에게는 분명한 이점이 있습니다.
Itamar

답변:


12

이는 비 비례 위험 또는 생존 분석에서 '고갈'의 영향에 대한 아주 좋은 예입니다. 나는 설명하려고 노력할 것이다.

처음에 Kaplan-Meier (KM) 곡선을 잘 살펴보십시오. 첫 번째 부분 (약 3000 일까지)에서 볼 수 있습니다. 시간 t에서 위험에 처한 인구에 남아있는 남성의 비율이 여성의 비율보다 더 큽니다. (즉, 파란색 선은 빨간색 선보다 '높습니다'). 이것은 실제로 남성 성별이 연구 된 사건 (사망)에 대해 '보호 적'임을 의미합니다. 따라서 위험 비율은 0과 1 사이 여야하며 계수는 음수 여야합니다.

그러나 3000 일 후에는 빨간색 선이 더 높습니다! 이것은 실제로 반대를 제안합니다. 이 KM 그래프만으로 비 비례 적 위험이 추가로 제안됩니다. 이 경우 '비례 적'이란 독립 변수 (성별)의 영향이 시간이 지남에 따라 일정하지 않음을 의미합니다. 다시 말해, 시간이 지남에 따라 위험 비율 을 변경할 수 있습니다. 위에서 설명한 것처럼이 경우가 보인다. 규칙적인 비례 위험 콕스 모델 은 이러한 효과를 수용하지 않습니다. 실제로 주요 가정 중 하나는 위험이 비례한다는 것입니다! 이제 비 비례 위험도 실제로 모델링 할 수 있지만이 답변 범위를 벗어납니다.

추가 의견이 하나 있습니다.이 차이는 실제 위험이 비례하지 않거나KM 곡선의 꼬리 추정치에 많은 차이가 있다는 사실. 이 시점에서 총 348 명의 환자 그룹이 여전히 위험에 처한 매우 적은 수의 인구로 감소했을 것입니다. 보다시피, 두 성별 그룹 모두 이벤트를 경험하는 환자와 검열중인 환자 (수직선)를 가지고 있습니다. 위험에 처한 인구가 감소함에 따라 생존 추정치는 덜 확실해질 것입니다. KM 선 주위에 95 % 신뢰 구간을 표시 한 경우 신뢰 구간의 너비가 증가하는 것을 볼 수 있습니다. 이것은 위험 평가에도 중요합니다. 간단히 말해서, 연구의 마지막 기간에 위험에 처한 인구와 사건의 양이 적기 때문에이 기간은 초기 콕스 모델의 추정치에 덜 기여합니다.

마지막으로, 위험 (시간이 지남에 따라 일정하다고 가정)이 최종 평가 항목이 아닌 KM의 첫 번째 부분과 더 일치하는 이유를 설명합니다.

편집 : 원래 질문에 대한 @Scrotchi의 현장 의견 참조 : 언급 한 바와 같이, 연구의 마지막 기간에 낮은 숫자의 효과는 해당 시점의 위험 평가가 불확실하다는 것입니다. 따라서 비례 위험 가정의 명백한 위반이 우연이 아닌지 확실하지 않습니다. @ scrotchi의 상태와 같이 PH 가정은 그렇게 나쁘지 않을 수 있습니다.


1
(-1) 꼬리는 데이터가 거의없는 극단에서 교차합니다. 실제로, "비 비례 위험"에 대한 증거는 단 두 가지 관찰에 기초합니다 (즉, t> 2800 일 때, 여성 집단에 남은 대상은 두 명 뿐이며, 그 외에 그룹 내에서 마지막 사건은 t = 2100)
Cliff AB

2
@CliffAB 의견 Cliff AB에 감사드립니다. 그래도 당신의 말이 내가 말하려고하는 것이기 때문에 약간 혼란스러워합니다. 나는 인정할 것이다 : 조금 더 짧을 수도있다. -1은 조금
힘들지만

2
어쩌면 그것은 저의 약간의 의미 일 것입니다. 내 유일한 요점은 내가 이것을 볼 때 비 비례 위험의 좋은 예가 아니라 꼬리에 대한 데이터는 거의 없다는 것입니다. 그래도 첫 번째 문장이 수정되었으므로 (처음으로 그리워하지 않으면 생각하지 않습니까?) 이제 (-1)은 불필요합니다.
Cliff AB

1
죄송합니다. 처음 놓친 것 같습니다. 죄송합니다!
Cliff AB

문제 없음, 최소한 우리는 그 대답에 동의합니다 : D
IWS

5

출력의 본질에 대해 혼란스러워합니다. 이 데이터는 다음과 같이 말합니다. 남성이라면 여성보다 더 오래 살 가능성이 높습니다. 암컷은 수컷보다 WORSE 생존율이 높습니다. MALE이되는 효과는 음의 로그 위험 비율을 가지므로 회귀 출력에 반영됩니다. 예를 들어 남성은 여성보다 위험이 낮습니다. 대부분의 이벤트 시간 (곡선이 "단계"인 경우), 남성 생존 곡선이 여성의 곡선보다 크면 Cox 모델 결과와 그래프가 매우 잘 일치합니다. KM 곡선은 회귀 모형 출력과 마찬가지로이를 확인합니다. "십자가"는 중요하지 않습니다.

KM 곡선은 꼬리가 0 %에 가까우거나 평평하게 테이퍼링 될 때 꼬리에서 제대로 작동하지 않습니다. Y 축은 생존 비율입니다. 연구에서 오래 살아남은 사람은 거의 없었고 그 당시 사망 한 사람은 거의 없었으며, 추정의 신뢰성은 직관적이고 그래픽 적으로 끔찍합니다. 나는 예를 들어, 남성보다 당신의 코호트에서 눈에 띄게 적은 여성이 있습니다,주의 생존 곡선의 단계에 의해 입증하고 검열 이벤트의 부족으로 2,800 일 후, 코호트에 남아있는 10보다 여성이 있다는 것을.

흥미로운 점으로, KM 곡선, 로그 순위 테스트 및 Cox 모델을 사용한 생존 분석 에서 순위 생존 시간을 사용하기 때문에 실제 생존 기간은 다소 관련이 없습니다. 실제로 가장 오래 생존 한 여성은 100 년 동안 더 살아남을 수 있으며 분석에 영향을 미치지 않습니다. 이는 기준 위험 기능 (지난 13 년 동안 아무런 사건도 관찰하지 않은)은 아무도 죽지 않았기 때문에 다음 87 년 동안 사망 할 위험이 없다고 가정하기 때문입니다.

강력한 HR이 올바른 95 % CI 및 p- 값 robust=TRUE을 얻으려면 Cox-PH에서 지정 하여 샌드위치 표준 오류를 얻습니다. 이 경우 HR은 모든 실패 시간에서 남성과 여성을 비교하는 시간 평균 HR입니다.


명확히하기 위해 : KM 플롯에서 남성은 최대 약 2700 일까지 더 나은 생존을합니다. 그 후 여성들은 생존율이 더 좋습니다. 그러나 데이터가 너무 적기 때문에 꼬리가 정확하지 않습니다. KM 곡선의 두 단계가 약 35 %에서 0 %로 여성 생존을하는 것을 볼 수 있으며, 이는 아마도 두 사람 일 가능성이 높습니다. 그런 다음 최대 약 2,000 일이 명확하게 분리 된 후 겹친다 고 생각합니다.
Harvey Motulsky 2016 년

2
@HarveyMotulsky 사실이지만 KM의 꼬리는 매우 신뢰할 수 없습니다. OP가 CI를 가져 오면 CI가 강력하게 겹치므로, 2,700 일 후에는 생존이 명백한 것이라고 말할 수 있습니다.
AdamO

정확히 내 요점. 데이터는 남성 (이 상황에 관계없이)이 적어도 처음 2000+ 일 동안 생존율이 더 우수함을 분명히 보여줍니다.
Harvey Motulsky 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.