R의 coxph ()는 반복 측정을 어떻게 처리합니까?


10

문맥

R의 coxph ()가 주제 (또는 원하는 경우 환자 / 고객)에 대한 반복 입력을 허용하고 처리하는 방법을 이해하려고합니다. 어떤 사람들은 이것을 Long 형식이라고 부르고 어떤 사람들은 이것을 '반복 된 측정치'라고 부릅니다.

예를 들어 다음의 답변 섹션에 ID 열이 포함 된 데이터 세트를 참조하십시오.

시변 공변량이있는 Cox 모델을위한 최상의 패키지

또한 공변량이 전체적으로 시간에 따라 변하고 정확히 하나의 검열 (예 : 이벤트) 변수가 있으며 이진수입니다.

질문

1) 위의 링크 답변에서 ID가 coxph () 호출에서 매개 변수로 제공되지 않으면 결과가 coxph ()의 매개 변수로 cluster (ID)를 포함하는 것과 같아야합니까?

설명서를 검색하려고 시도했지만 다음 내용이 명확하게 해결되지 않은 것 같습니다 (1) : https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

2) 만약 (1)에 대한 대답이 '아니요'라면, (수학적으로) 왜? coxph ()의 cluster ()는 pg의 'cluster'하위 섹션에 따라 주제 간의 상관 관계를 찾는 것 같습니다. 20시

https://cran.r-project.org/web/packages/survival/survival.pdf

3) 모호한 질문 : 반복적 인 측정 값을 가진 coxph ()는 R의 frailtypack 회귀 분석법과 어떻게 비교됩니까?

부록

cluster (ID) 사용에 대한 다음 힌트 :

로그 랭크 테스트의 반복 측정 인식 버전이 있습니까?

그렇듯이

https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

GEE 접근법 : coxph의 모델 명령문에 "+ cluster (subject)"추가 혼합 모델 접근법 : coxme의 모델 설명에 "+ (1 | subject)"추가

미리 감사드립니다!

답변:


11
  1. 포함 cluster(ID)하면 모수의 추정치가 변경되지 않습니다. 그러나 표준 오류가 계산되는 방식을 변경합니다.

    자세한 내용은 Therneau & Grambsch의 저서 콕스 모델 확장 , 장 8.2를 참조하십시오. 그들의 예에서, 그것들 method = "breslow"은 동점에 대한 수정으로 사용 되지만, 기본값 ( method = "efron") 과 함께 se에 대한 유사한 계산이 사용되며 요약에 "robust se"로 나타납니다.

  2. 군집 (ID)을 사용하는 경우 "강력한"표준 오차 추정치가 부과되고 대상 간 가능한 의존성이 측정됩니다 (예 : 표준 오차 및 분산 점수). 반면 cluster (ID)를 사용하지 않으면 각 관측치에 독립성을 부여하고 데이터에서 더 많은 "정보"가 가정됩니다. 보다 기술적 인 용어로, 매개 변수의 점수 함수는 변경되지 않지만이 점수의 분산은 변경됩니다. 보다 직관적 인 주장은 100 명의 개인에 대한 100 개의 관측치가 10 개의 개인 (또는 군집)에 대한 100 개의 관측치보다 많은 정보를 제공한다는 것입니다.

  3. 실제로 막연하다. 요컨대, 감마 또는 로그 정규 랜덤 효과와 비모수 기준선 위험 / 강도로 표준 연약한 모델 +frailty(ID)coxph()적합합니다. frailtypack파라 메트릭 기준선 (스플라인 또는 부분 단위 상수 함수가 포함 된 유연한 버전)을 사용하며 상관 된 연약함, 중첩 된 연약함 등과 같은보다 복잡한 모델에도 적합합니다.

마지막으로, +cluster()독립적 인 관찰로 가능성에서 점수 방정식을 취하고 표준 오차에 대해 다른 "견고한"추정기를 사용한다는 점에서 GEE의 정신에 다소 있습니다.

편집 : 게시물의 명확성에 관한 제안에 감사드립니다.


감사합니다. (2)에 관하여 : "이것은 당신이 (잘못) 가정한다면 ..."로 대체 될 수 있습니다. "coxph () 호출에서 cluster (ID)를 사용하지 않으면, 당신은 잘못 가정합니다 ...."
Quetzalcoatl

의미 : 관측치가 군집되어 있으면 독립적이거나 독립적이지 않을 수 있습니다. 이 경우에 그것들이 독립적이라고 가정하면 (즉, cluster (id)를 사용하지 않는 것) 거의 확실하지 않지만, 미리 알 수는 없습니다.
Theodor

(2) 다음과 같이 표현할 수있다 : 군집 (ID)이 사용되는 경우, 표준 오차의 "견고한"추정치가 부과되고 대상들 사이의 가능한 의존성이 측정된다 (예를 들어 표준 오차 및 분산 점수). 반면 cluster (ID)를 사용하지 않으면 각 관측치에 독립성을 부여하고 데이터에서 더 많은 "정보"가 가정됩니다.
케찰코아틀

(1)에서 제공 한 참조 링크는 springer.com/us/book/9780387987842(Therneau와 Grambsch의 책을 인용한다고 가정)
Quetzalcoatl

참고 : Therneau와 Grambsch의 저서에서 설명한 것처럼 위의 (1)에서 정답은 coxph ()가 Breslow 메서드를 기본적으로 사용하기 때문입니다.
Quetzalcoatl

1

다음은 survival도움이 된 패키지 비 네트의 답변입니다. 첫 번째 답변에서 처음으로 연결 한 질문에 연결되어 있습니다.

시변 공변량이있는 Cox 모델을위한 최상의 패키지

그들은 긴 형식의 데이터 설정 또는 주제에 대해 반복적으로 입력 된 데이터를 참조합니다.

이 데이터 설정의 일반적인 질문 중 하나는 주어진 주제에 여러 관측치가 있기 때문에 상관 된 데이터에 대해 걱정해야하는지 여부입니다. 대답은 '아니요'입니다. 그 이유는이 표현이 단순히 프로그래밍 트릭이기 때문입니다. 어느 시점에서든 가능성 방정식은 모든 주제의 사본 하나만 사용하며 프로그램은 매번 올바른 데이터 행을 선택합니다. 이 규칙에는 두 가지 예외가 있습니다.

  • 주제에 여러 이벤트가있는 경우 이벤트 행이 주제 내에서 상관되며 클러스터 분산이 필요합니다.
  • 피사체가 겹치는 간격으로 나타날 때. 그러나 이것은 거의 항상 데이터 오류입니다. 예를 들어, 그녀는 파티에서 자신을 만날 수있는 같은 지층에 동시에 존재하는 대상의 두 사본에 해당하기 때문입니다.

그들이주는 예는

fit <- coxph(Surv(time1, time2, status) ~ age + creatinine, data=mydata)

Surv하나 대신 두 번 (시작 및 종료 기간)을 제공 coxph()하면 나머지는 알아낼 것입니다.


내가 잘못 이해하지 않았다면,이 의견이 잘못된 것이라고 생각합니까? 분산의 정확한 추정치를 얻으려면 상관 데이터에 대해 걱정할 필요가 있는데, 왜 + 군집 (ID) 항을 추가하면 추정 분산 항이 변경됩니까?
AP30
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.