다음과 같은 문제가 있다고 가정 해 봅시다.
다음 3 개월 동안 상점에서 구매를 중단 할 가능성이 가장 높은 고객을 예측하십시오.
각 고객에 대해 우리는 고객이 상점에서 구매하기 시작한 달을 알고 있으며 추가로 월별 집계에 많은 행동 기능이 있습니다. '가장 오래된'고객은 50 개월 동안 구매했습니다. 클라이언트가 ( ) 까지 구매를 시작한 이후의 시간을 표시해 봅시다 . 클라이언트 수가 매우 많다고 가정 할 수 있습니다. 고객이 3 개월 동안 구매를 중단 한 후 다시 돌아 오면 새 고객으로 취급되므로 이벤트 구매 중지가 한 번만 발생할 수 있습니다.
두 가지 해결책이 떠 오릅니다.
로지스틱 회귀 -각 고객과 매월 (최신 3 개월 제외)에 대해 고객의 구매 중단 여부를 알 수 있으므로 고객과 월별로 한 번의 관찰로 샘플을 롤링 할 수 있습니다. 기초 위험 함수와 동등한 일부를 얻기 위해 범주 변수로 시작한 이후 몇 개월을 사용할 수 있습니다.
확장 콕스 모델 -이 문제는 확장 콕스 모델을 사용하여 모델링 할 수도 있습니다. 이 문제는 생존 분석에 더 적합한 것으로 보입니다.
질문 : 비슷한 문제에서 생존 분석의 장점은 무엇입니까? 생존 분석은 어떤 이유로 개발되었으므로 심각한 이점이 있어야합니다.
생존 분석에 대한 나의 지식은 그리 깊지 않으며 Cox 모델의 가장 큰 장점은 로지스틱 회귀를 사용하여 얻을 수 있다고 생각합니다.
- 층화 콕스 모델과 동등한 것은 와 층화 변수 의 상호 작용을 사용하여 얻을 수 있습니다 .
- 교집합 콕스 모델은 모집단을 여러 하위 모집단으로 다이빙하고 모든 하위 모집단에 대해 LR을 추정하여 얻을 수 있습니다.
내가 볼 수있는 유일한 장점은 Cox 모델이 더 유연하다는 것입니다. 예를 들어 고객이 6 개월 안에 구매를 중단 할 확률을 쉽게 계산할 수 있습니다.