사소한 기능에 대한 적합도를 평가하는 방법


9

분류 및 회귀에 대한 지식이 있지만 생존 분석을 처음 접하는 사람입니다.

회귀 분석을 위해 MSE 및 R 제곱 통계가 있습니다. 그러나 생존 모델 A가 어떤 종류의 그래픽 플롯 (KM 곡선) 외에 생존 모델 B보다 우수하다고 말할 수 있습니까?

가능한 경우 차이점을 예를 들어 설명하십시오 (예 : R의 rpart 패키지). 한 CART 생존 트리가 다른 CART 생존 트리보다 낫다는 것을 어떻게 보여줄 수 있습니까? 어떤 메트릭을 사용할 수 있습니까?


3
다양한 종류 의 생존 분석이 있습니다. 그들 중 일부는 실제로 회귀에 기반합니다. KM과 같은 일부는 생존 관련 통계에 대한 추정기로 더 쉽게 생각할 수 있습니다.
Alexis

질문을 개선하기 위해 계속 노력해 주셔서 감사합니다. 나는 그것이 CV에 대해 대답 할 수 있고 적절하다고 생각합니다. 재 개설 후보로 지명했습니다. 우리는 다른 사람들이 동의하는지 볼 것입니다. 사람들이 이러한 문제를 설명하는 데 사용할 수있는 두 가지 CART 유형 생존 모델을 게시 할 수 있다면 도움이 될 것입니다.
gung-복직 모니카

1
벤, 그래서 기본적으로 당신은 Cox 비례 위험 회귀에서 적합도를 평가하는 좋은 방법이 없다고 말하는 것입니까? R- 제곱은 검열 된 관측치와 검열되지 않은 관측치를 올바르게 처리 할 수 ​​없기 때문에 좋은 결과를 얻지 못합니까? 당신은 Harrells c에 대해 이야기하고 있습니다. 나는 그 방법이 Cox-PH 회귀에 적용 할 수 없다는 것을 이해 했습니까?
코스타 S.

답변:


9

Cox 모델 와 같은 통계의 주요 문제R2(다른 답변에서 설명)은 데이터의 검열 분포에 매우 의존적입니다. 널 모델에 대한 우도 비율과 같은 다른 자연적인 것들에도이 문제가 있습니다. (기본적으로 검열 된 데이터 포인트의 가능성에 대한 기여는 이벤트가 관찰되는 데이터 포인트의 기여와 매우 다르기 때문입니다. 하나는 PDF에서, 하나는 CDF에서 온 것이기 때문입니다.) 이 문제를 해결할 방법을 제안했지만 필자가 보았던 방법은 일반적으로 검열 분포 모델이나 비현실적인 것을 요구합니다. 이 의존성이 실제로 얼마나 나쁜지 조사하지 않았으므로 검열이 상당히 온화한 경우에도 가능성 비율 기반 통계를 볼 수 있습니다. 생존 CART 모델의 경우

일반적인 생존 모델의 경우 자주 사용되는 통계 중 하나는 Harrell의 c 지수, Kendall의 또는 ROC AUC와 유사 합니다. 기본적으로 c 는 한 인스턴스가 다른 인스턴스보다 늦게 이벤트를 겪었다는 것을 알고 있는 모든 인스턴스 중에서 모델의 순위가 올바른 비율입니다. 다시 말해, 여기에서 한 쌍의 인스턴스가 분모에 포함 되려면 최대 한 개가 검열 될 수 있고 다른 한 개가 이벤트를 경험 한 후에 는 검열되어야합니다 . c 색인은 검열 분포에 따라 다릅니다. Harrell에 따르면 의존성은 위에서 언급 한 다른 통계보다 더 온화합니다. 불행히도, Harrell 's cτ또한 위의 통계보다 덜 민감하므로 모델 간의 차이가 작은 경우 모델을 기반으로 모델을 선택하지 않을 수 있습니다. 다른 모델을 비교하는 방법보다 해석 가능한 일반 성능 지수로 더 유용합니다.

(마지막으로, 모델에 대한 특정 목적을 염두에두고 있다면, 즉 예측 손실 함수가 무엇인지 알고 있다면 항상 손실 함수에 따라 모델을 평가할 수 있습니다! 운이 좋지 않아 ...)

우도 비 통계와 Harrell 's c에 대한 자세한 내용은 Harrell의 훌륭한 교과서 인 Regression Modeling Strategies를 참조하십시오 . 생존 모델 평가 섹션은 §19.10, pp. 492-493입니다. 하나의 결정적인 답변을 드릴 수 없어서 죄송하지만 이것이 해결 된 문제라고 생각하지 않습니다!


5

생존 데이터에 대한 콕스 비례 위험 회귀는 여러 측면에서 표준 회귀에 해당하는 것으로 생각할 수 있습니다. 예를 들어, Cox 회귀는 잔차 표준 오류 및 R- 제곱 통계도 제공합니다. coxphR survival패키지 의 기능을 참조하십시오 . (KM 곡선을 표준 통계의 비모수 분석에 해당하는 것으로 생각할 수 있습니다. 비모수 테스트를 CART에 어떻게 통합 하시겠습니까?) 실제로 임상 데이터를 사용하면 잔류 표준 오차가 높고 R- 제곱 값이 낮습니다. 콕스 회귀 분석에서

따라서 표준 회귀와 Cox 회귀는 비슷한 요구 사항과 제한이 있습니다. 데이터가 기본 가정에 맞는지 확인해야합니다. Cox 분석에는 비교되는 위험이 시간에 따라 비례한다는 가정이 추가로 포함됩니다. 여전히 과적 합을 피해야하며 모델을 검증해야합니다. CART를 이해하지만 직접 사용하지는 않지만 중첩되지 않은 모델을 비교하면 여전히 어려운 문제에 직면하게됩니다.


콕스 회귀와 회귀의 차이점과 관계에 대한 답변에 감사드립니다. 그러나 두 rpart (CART) 의사 결정 트리 생존 모델을 비교하는 방법을 알고 싶습니다.
14:08에 범람

projecteuclid.org/euclid.ssu/1315833185에 링크 된 공개 문서 는 최근 rpartR 패키지 및 코드를 기반으로 생존 트리를 작성 및 선택하는 방법을 검토하고 비교 한 것입니다 .
EdM

종이를 가져와 주셔서 감사합니다. 나는 지금 신문을 읽을 것이다.
2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.