내 데이터 세트의 각 레코드에 대해 다음 정보가 있습니다.
여기서 는 기능이고 는 대상 이벤트가 발생하면 1이고 그렇지 않으면 0이며 는 발생 이벤트의 타임 스탬프입니다. 특히, 이벤트가 없거나 후속 조치 시간을 설정하면 가 누락 될 수 있습니다.
내 데이터 세트의 각 레코드에 대한 위험 지수를 계산하고 싶습니다.
내가 사용하는 특징있는 분류 모델에 갈 생각 클래스 예측하는 . 그러나 가 중요합니다. 이벤트 가 곧 발생할 가능성이 높으면 위험이 높아져야합니다.
이것이 생존 분석 이이 문제에 적합해야하는 이유 입니다. 대한 전체 평가가 필요하지 않지만 단일 레코드의 위험을 나타내는 단일 인덱스 만 필요합니다.
각 레코드에 대해 계산할 수있는 평균 생존 시간은 좋은 위험 지수 인 것처럼 보입니다. 위험이 낮을수록 위험이 높습니다.
내 질문은 :
- 생존 분석이 나의 목적에 적합합니까?
- 모델의 성능을 어떻게 평가할 수 있습니까?
질문 (2)에 대해 : 예를 들어 Harrell의 index 를 사용하고 싶지만 어떤 예측 결과가 계산에 사용되는지 확실하지 않습니다. Harrell의 저서 회귀 모델링 전략 페이지 247에서 :
인덱스 [...]는 하나의 피사체에 대응하고 다른 하나는 그렇지 않다고하도록 주제의 모든 가능한 쌍을 고려하여 계산된다. 지수는 비 응답자보다 응답 확률이 더 높은 응답자가있는 그러한 쌍의 비율이다.
생존 분석이 올바른 선택으로 판명되면 시변 공변량 을 도입하기 위해 표준 방법을 사용하는 것이 쉬워야한다고 생각합니다 .