생존 분석에서 검열에 대한 Layman의 설명


13

나는 검열이 무엇인지와 생존 분석에서 어떻게 계산되어야하는지에 대해 읽었지만 그에 대한 수학적 정의가 적고 더 직관적 인 정의를 듣고 싶습니다 (사진은 좋을 것입니다!). 누구든지 1) 검열과 2) Kaplan-Meier 곡선 및 Cox 회귀와 같은 영향에 대한 설명을 제공 할 수 있습니까?


생존 분석에 대한 Linear Digression 팟 캐스트를 듣고 왼쪽과 오른쪽 검열에 대한 단순화 된 정의와 콕스 모델에 대한 동기를 듣는 것이 좋습니다 .
Uri Goren

답변:


16

검열은 종종 절단과 비교하여 설명 됩니다 . 두 프로세스에 대한 자세한 설명은 Gelman et al (2005, p. 235)에서 제공합니다.

잘린 데이터는 잘린 지점 이외의 관측 값을 사용할 수 없다는 검열 된 데이터와 다릅니다. 검열을 사용 하면 절단 지점을 넘어서는 관측 이 손실되지만 그 수는 관찰됩니다.

일부 수준 이상 (오른쪽 검열), 일부 수준 아래 (왼쪽 검열) 또는 둘 다의 값에 대해 검열 또는 절단이 발생할 수 있습니다.

아래에서 점 (중간) 에서 검열 되거나 (오른쪽) 에서 잘린 표준 정규 분포의 예를 찾을 수 있습니다 . 샘플이 잘 리면 잘림 지점을 넘어서는 데이터가없고, 잘림 지점을 초과하는 검열 된 샘플 값이 경계 값으로 반올림되므로 샘플에 과도하게 나타납니다.2.02.0

여기에 이미지 설명을 입력하십시오

검열에 대한 직관적 인 예는 응답자에게 나이에 대해 물어 보지만, 일부 값까지만 기록하고이 값보다 높은 모든 나이 (60 세)는 "60+"로 기록된다는 것입니다. 이로 인해 검열되지 않은 값에 대한 정확한 정보가 있고 검열 된 값에 대한 정보는 없습니다.

인터넷에서 거의 주목끌었던 폴란드의 matura 시험 점수 에서 검열에 대한 실제적이지 않은 전형적인 예가 관찰되었습니다 . 시험은 고등학교 말미에 치르며 학생들은 고등 교육을 신청할 수 있도록 합격해야합니다. 아래 도표에서 학생들이 시험에 합격해야하는 최소 점수는 얼마인지 추측 할 수 있습니까? 놀랍게도, 그렇지 않으면 정규 분포의 "갭"이 검열 경계 바로 위에서 과도하게 표현 된 점수의 적절한 비율을 취하면 쉽게 "채워질"수 있습니다.

여기에 이미지 설명을 입력하십시오

생존 분석의 경우

검열은 개별 생존 시간에 대한 정보가 있지만 생존 시간을 정확히 알지 못하는 경우 발생합니다.

(Kleinbaum and Klein, 2005, p. 5). 예를 들어, 약물을 사용하여 환자를 치료하고 연구가 끝날 때까지 환자를 관찰하지만 연구가 끝난 후 (재발 또는 부작용이 있었습니까?) 환자에게 어떤 일이 발생했는지는 알 수 없습니다. 적어도 연구가 끝날 때까지 살아 남았습니다 .

다음은 Kaplan–Meier 추정기를 사용하여 모델링 된 Weibull 분포 에서 생성 된 데이터의 예입니다 . 파란색 곡선 표시 모델은 전체 데이터 세트에서 추정 된 모델이며, 중간 그림에서 검열 된 샘플 및 검열 된 데이터에 대해 추정 된 모델 (빨간색 곡선)을 볼 수 있으며 오른쪽에서 잘린 샘플 및 해당 표본에서 추정 된 모델 (빨간색 곡선)을 볼 수 있습니다. 보시다시피 결측 데이터 (절단)는 추정치에 큰 영향을 주지만 표준 생존 분석 모델을 사용하여 검열을 쉽게 관리 할 수 ​​있습니다.

여기에 이미지 설명을 입력하십시오

이것은 잘린 샘플을 분석 할 수 없다는 것을 의미하지는 않지만,이 경우 알려지지 않은 정보를 "추측"하려는 결측 데이터에 대한 모델을 사용해야합니다.


클라인 바움, DG 및 클라인, M. (2005). 생존 분석 :자가 학습 텍스트. 봄 병아리.

Gelman, A., Carlin, JB, Stern, HS 및 Rubin, DB (2005). 베이지안 데이터 분석. 채프먼 & 홀 / CRC.


이 Matura 음모의 출처를 알고 있습니까? 인터넷 검색을 시도하고 reddit 링크를 계속 얻었지만 참조가 포함되어 있지 않습니다. 그것은 귀속없이 imgur.com으로 연결됩니다. 업데이트 : 찾았습니다. cke.edu.pl//images/files/matura/informacje_o_wynikach/2013/…18 페이지.
amoeba는 Reinstate Monica가

1
@amoeba 자세한 내용에 관심이 있으시면 언제든지 저에게 연락하십시오. 내가 아는이 주제에 관한 대부분의 자료는 불행히도 폴란드어로되어 있습니다. 사진은 하나이지만 내 친구 가이 데이터를보다 자세하게 분석했습니다 (btw, 요청시 제공 가능).
Tim

2

검열은 생존 분석의 핵심입니다.

기본 아이디어는 정보가 검열되어 보이지 않는 것입니다. 간단히 설명하면, 표본의 모든 사람이 사망하기 전에 수명 시간을 기록하면 검열 된 수명 분포를 얻을 수 있습니다. X 축에서 "오른쪽으로"이동하는 시간을 생각하면이를 오른쪽 검열이라고 할 수 있습니다.

왼쪽 검열 및 창 검열과 같은 다른 유형도 있습니다. 유용한 소개는 Sage가 발행 한 이벤트 기록 분석에 관한 Allison의 1984 텍스트를 참조하십시오.

예 : 인구의 이혼율을 계산하는 경우, 이혼 위험이있는 개인 (즉 결혼 한 사람) 만 포함 시키려고합니다. 사람들이 이혼 이외의 이유로 결혼을 끝내면 (결혼, 폐지), 그들을 검열하고 싶을 것입니다. 그들은 더 이상 이혼의 위험이 없습니다. Kaplan-Meier 추정치 (및 플롯)에는 검열 된 시점 이후의 검열 된 관측치가 포함되지 않아야하며 해당 시점까지 포함되어야합니다.


도표 또는 도표?
RustyStatistician
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.