콕스 모델과 로지스틱 회귀

다음과 같은 문제가 있다고 가정 해 봅시다.

다음 3 개월 동안 상점에서 구매를 중단 할 가능성이 가장 높은 고객을 예측하십시오.
각 고객에 대해 우리는 고객이 상점에서 구매하기 시작한 달을 알고 있으며 추가로 월별 집계에 많은 행동 기능이 있습니다. '가장 오래된'고객은 50 개월 동안 구매했습니다. 클라이언트가 ( ) 까지 구매를 시작한 이후의 시간을 표시해 봅시다 . 클라이언트 수가 매우 많다고 가정 할 수 있습니다. 고객이 3 개월 동안 구매를 중단 한 후 다시 돌아 오면 새 고객으로 취급되므로 이벤트 구매 중지가 한 번만 발생할 수 있습니다. $t$ $t \in [0, 50]$

두 가지 해결책이 떠 오릅니다.

로지스틱 회귀 -각 고객과 매월 (최신 3 개월 제외)에 대해 고객의 구매 중단 여부를 알 수 있으므로 고객과 월별로 한 번의 관찰로 샘플을 롤링 할 수 있습니다. 기초 위험 함수와 동등한 일부를 얻기 위해 범주 변수로 시작한 이후 몇 개월을 사용할 수 있습니다.

확장 콕스 모델 -이 문제는 확장 콕스 모델을 사용하여 모델링 할 수도 있습니다. 이 문제는 생존 분석에 더 적합한 것으로 보입니다.

질문 : 비슷한 문제에서 생존 분석의 장점은 무엇입니까? 생존 분석은 어떤 이유로 개발되었으므로 심각한 이점이 있어야합니다.

생존 분석에 대한 나의 지식은 그리 깊지 않으며 Cox 모델의 가장 큰 장점은 로지스틱 회귀를 사용하여 얻을 수 있다고 생각합니다.

층화 콕스 모델과 동등한 것은 와 층화 변수 의 상호 작용을 사용하여 얻을 수 있습니다 . $t$
교집합 콕스 모델은 모집단을 여러 하위 모집단으로 다이빙하고 모든 하위 모집단에 대해 LR을 추정하여 얻을 수 있습니다.

내가 볼 수있는 유일한 장점은 Cox 모델이 더 유연하다는 것입니다. 예를 들어 고객이 6 개월 안에 구매를 중단 할 확률을 쉽게 계산할 수 있습니다.

logistic survival cox-model

— 토멕 타르 친 스키
소스

답변:

Cox 모델의 문제점은 아무것도 예측하지 못한다는 것입니다. Cox 모델의 "절편"(기준 위험 함수)은 실제로 추정되지 않습니다. 로지스틱 회귀 분석을 사용하여 특정 사건의 위험 또는 확률을 예측할 수 있습니다.

일반 로지스틱 회귀 분석에 대한 가정의 문제점은 동일한 사람인지 또는 같은 달인 지에 관계없이 각 사람의 월별 관측치를 독립적으로 취급한다는 것입니다. 일부 품목은 2 개월 간격으로 구매하기 때문에 위험 할 수 있으므로 월 단위로 연속 관찰하는 사람은 음의 상관 관계가 있습니다. 또는, 고객이 유지되거나 개월의 관찰에 의해 연속 사람을 선도하는 좋은 또는 나쁜 경험에 의해 손실 될 수 있습니다 긍정적 인 상관 관계.

이 예측 문제의 좋은 출발점은 이전 정보를 사용하여 다음 달 사업에 대한 예측을 알려주는 예측 방법을 사용하는 것입니다. 이 문제에 대한 간단한 시작이 지연된 효과, 또는 피사체가 도착했는지의 지표에 대한 조정되어 마지막 이 도착 할 수 있는지 여부의 예측 인자로, 월 이 달.

— AdamO
소스

독립성 문제를 해결하기 위해 다단계 로지스틱 회귀 분석을 사용할 수 없습니까? 레벨 2는 클라이언트가되고 레벨 1은 시간이 지남에 따라 반복 측정됩니다.

— Forinstance

@AdamO, 절편 을 추정 할 수 있고 개인의 부분 위험 예측과 결합하여 개별 생존 곡선을 만들 수 있습니다. 왜 Cox 모델이 "아무것도"예측할 수 없는지 잘 모르겠습니다.

— Cam.Davidson.Pilon

δ

$\delta$

예측 목적으로, 나는 이것이 차단제가 아니라고 생각합니다. 단일 예측을 생성하기 위해 여러 추정값을 결합하는 것은 드문 일이 아니며, 불행히도 예측 간격은 일반적으로 사용되거나 사용되지 않습니다.

— Cam.Davidson.Pilon

@ Cam.Davidson.Pilon 나는 생존 데이터로부터 위험 예측을 얻을 수 없다고 말하지 않았으며, Cox 모델은 위험을 예측하지 않는다고 말했다. 전화를 걸고 coxph위험을 예측 하는 단계 는 가파르고 많습니다.

— AdamO

$T_j$ $j$ $\Pr(T_j > 3)$ $j$ $3$

생존 분석은 각 고객이 자신의 연구 시간을 가지고 있다는 사실을 고려합니다. 후속 기간은 클라이언트마다 다르므로 문제가되지 않습니다.

$j$

비고 : 다음은 일부 제약 조건에서 로지스틱과 Cox 모델이 모두 연결되어 있음을 보여주는 논문 입니다.

— 옥람
소스

대답 해줘서 고마워요. SA가 검열을 올바르게 처리하면 LR 솔루션이 검열을 제대로 처리하지 못합니다. 결과가 얼마나 coult입니까? 나는 여전히 SA가 정해진 시간 목표에 대해 더 낫다는 것을 확신 할 수 없다. 이 기사를 무료로 찾을 수 있습니까?

— Tomek Tarczynski

Y = 0

$Y = 0$

내 이메일은 : tomek.tarczynski@gmail.com 대단히 감사합니다!

— Tomek Tarczynski

@TomekTarczynski : 받았습니다?

— ocram

네, 다시 감사합니다! 내일 좀 더 자세히 읽어 볼 시간이 있습니다. 방금 훑어 보았고 올바르게 이해하면 약간 다른 문제가 해결됩니다. 상점의 비유를 사용하여 LR과 COX를 "고정 후 몇 개월 후에 클라이언트가 더 이상 클라이언트가되지 않을 확률은 얼마입니까?"라는 문제와 비교합니다.

— Tomek Tarczynski

마케팅 문헌은 여기 또는 이와 유사한 Pareto / NBD를 제안합니다. 기본적으로 구매는 구매하는 동안 마이너스 이항 분포를 따른다고 가정합니다. 그러나 고객이 중지하는 시간을 모델링해야합니다. 그것은 다른 부분입니다.

Pete Fader와 Bruce Hardie는 Abe와 함께 이것에 관한 논문을 가지고 있습니다.

파레토 / NBD에 대한 몇 가지 더 간단한 접근법이 있으며, 심지어 페이더와 하디의 다양한 논문을 세는 것까지도 포함됩니다. 중지 할 확률이 각 시점에서 일정하다고 가정하는 더 간단한 접근 방식을 사용하지 마십시오. 즉, 많은 고객이 더 빨리 탈락 할 가능성이 높아집니다. 맞는 간단한 모델이지만 잘못되었습니다.

나는이 중 하나에 한동안 맞지 않았다. 조금 구체적이지 않아서 죄송합니다.

다음은이 문제를 계층 적 베이로 재구성 한 Abe 논문에 대한 참조입니다. . 이 분야에서 다시 일하고 있다면이 접근법을 시험해 볼 것이라고 생각합니다.

— zbicyclist
소스