나는 검열이 무엇인지와 생존 분석에서 어떻게 계산되어야하는지에 대해 읽었지만 그에 대한 수학적 정의가 적고 더 직관적 인 정의를 듣고 싶습니다 (사진은 좋을 것입니다!). 누구든지 1) 검열과 2) Kaplan-Meier 곡선 및 Cox 회귀와 같은 영향에 대한 설명을 제공 할 수 있습니까?
나는 검열이 무엇인지와 생존 분석에서 어떻게 계산되어야하는지에 대해 읽었지만 그에 대한 수학적 정의가 적고 더 직관적 인 정의를 듣고 싶습니다 (사진은 좋을 것입니다!). 누구든지 1) 검열과 2) Kaplan-Meier 곡선 및 Cox 회귀와 같은 영향에 대한 설명을 제공 할 수 있습니까?
답변:
검열은 종종 절단과 비교하여 설명 됩니다 . 두 프로세스에 대한 자세한 설명은 Gelman et al (2005, p. 235)에서 제공합니다.
잘린 데이터는 잘린 지점 이외의 관측 값을 사용할 수 없다는 검열 된 데이터와 다릅니다. 검열을 사용 하면 절단 지점을 넘어서는 관측 값 이 손실되지만 그 수는 관찰됩니다.
일부 수준 이상 (오른쪽 검열), 일부 수준 아래 (왼쪽 검열) 또는 둘 다의 값에 대해 검열 또는 절단이 발생할 수 있습니다.
아래에서 점 (중간) 에서 검열 되거나 (오른쪽) 에서 잘린 표준 정규 분포의 예를 찾을 수 있습니다 . 샘플이 잘 리면 잘림 지점을 넘어서는 데이터가없고, 잘림 지점을 초과하는 검열 된 샘플 값이 경계 값으로 반올림되므로 샘플에 과도하게 나타납니다.
검열에 대한 직관적 인 예는 응답자에게 나이에 대해 물어 보지만, 일부 값까지만 기록하고이 값보다 높은 모든 나이 (60 세)는 "60+"로 기록된다는 것입니다. 이로 인해 검열되지 않은 값에 대한 정확한 정보가 있고 검열 된 값에 대한 정보는 없습니다.
인터넷에서 거의 주목 을 끌었던 폴란드의 matura 시험 점수 에서 검열에 대한 실제적이지 않은 전형적인 예가 관찰되었습니다 . 시험은 고등학교 말미에 치르며 학생들은 고등 교육을 신청할 수 있도록 합격해야합니다. 아래 도표에서 학생들이 시험에 합격해야하는 최소 점수는 얼마인지 추측 할 수 있습니까? 놀랍게도, 그렇지 않으면 정규 분포의 "갭"이 검열 경계 바로 위에서 과도하게 표현 된 점수의 적절한 비율을 취하면 쉽게 "채워질"수 있습니다.
생존 분석의 경우
검열은 개별 생존 시간에 대한 정보가 있지만 생존 시간을 정확히 알지 못하는 경우 발생합니다.
(Kleinbaum and Klein, 2005, p. 5). 예를 들어, 약물을 사용하여 환자를 치료하고 연구가 끝날 때까지 환자를 관찰하지만 연구가 끝난 후 (재발 또는 부작용이 있었습니까?) 환자에게 어떤 일이 발생했는지는 알 수 없습니다. 적어도 연구가 끝날 때까지 살아 남았습니다 .
다음은 Kaplan–Meier 추정기를 사용하여 모델링 된 Weibull 분포 에서 생성 된 데이터의 예입니다 . 파란색 곡선 표시 모델은 전체 데이터 세트에서 추정 된 모델이며, 중간 그림에서 검열 된 샘플 및 검열 된 데이터에 대해 추정 된 모델 (빨간색 곡선)을 볼 수 있으며 오른쪽에서 잘린 샘플 및 해당 표본에서 추정 된 모델 (빨간색 곡선)을 볼 수 있습니다. 보시다시피 결측 데이터 (절단)는 추정치에 큰 영향을 주지만 표준 생존 분석 모델을 사용하여 검열을 쉽게 관리 할 수 있습니다.
이것은 잘린 샘플을 분석 할 수 없다는 것을 의미하지는 않지만,이 경우 알려지지 않은 정보를 "추측"하려는 결측 데이터에 대한 모델을 사용해야합니다.
클라인 바움, DG 및 클라인, M. (2005). 생존 분석 :자가 학습 텍스트. 봄 병아리.
Gelman, A., Carlin, JB, Stern, HS 및 Rubin, DB (2005). 베이지안 데이터 분석. 채프먼 & 홀 / CRC.
검열은 생존 분석의 핵심입니다.
기본 아이디어는 정보가 검열되어 보이지 않는 것입니다. 간단히 설명하면, 표본의 모든 사람이 사망하기 전에 수명 시간을 기록하면 검열 된 수명 분포를 얻을 수 있습니다. X 축에서 "오른쪽으로"이동하는 시간을 생각하면이를 오른쪽 검열이라고 할 수 있습니다.
왼쪽 검열 및 창 검열과 같은 다른 유형도 있습니다. 유용한 소개는 Sage가 발행 한 이벤트 기록 분석에 관한 Allison의 1984 텍스트를 참조하십시오.
예 : 인구의 이혼율을 계산하는 경우, 이혼 위험이있는 개인 (즉 결혼 한 사람) 만 포함 시키려고합니다. 사람들이 이혼 이외의 이유로 결혼을 끝내면 (결혼, 폐지), 그들을 검열하고 싶을 것입니다. 그들은 더 이상 이혼의 위험이 없습니다. Kaplan-Meier 추정치 (및 플롯)에는 검열 된 시점 이후의 검열 된 관측치가 포함되지 않아야하며 해당 시점까지 포함되어야합니다.