표준 다중 선형 회귀 분석에서 2 단계로 평범한 제곱 (OLS) 추정값을 맞추는 기능은 Frisch–Waugh-Lovell 정리 에서 나옵니다 . 이 정리는 다중 선형 모형에서 특정 예측 변수에 대한 계수의 추정치가 예측 변수 잔차 (잔여 물)에 대한 응답 잔차 ( 다른 설명 변수 에 대한 응답 변수의 회귀 잔차)를 회귀하여 얻은 추정치 와 같습니다. 다른 설명 변수 에 대한 예측 변수의 회귀에서 ). 분명히, 당신은 로지스틱 회귀 모형에 사용될 수있는이 정리에 대한 비유를 찾고 있습니다.
이 질문에 대해, 기억하는 것이 도움이된다 로지스틱 회귀의 잠재 변수 특성을 :
Yi=I(Y∗i>0)Y∗i=β0+βXxi+βZzi+εiεi∼IID Logistic(0,1).
이 모델의 특성화에서 잠재 응답 변수 는 관찰 할 수 없으며, 대신 잠재 응답이 긍정적인지 아닌지를 알려주 는 표시기 를 관찰합니다 . 이 형태의 모형은 약간 다른 오차 분포 (정규 분포 대신 로지스틱 분포)를 사용한다는 점을 제외하고는 다중 선형 회귀와 유사하며, 더 중요한 것은 잠재 반응이 긍정적인지 아닌지를 나타내는 지표 만 관찰한다는 것입니다 .Y∗iYi
이로 인해 모델의 2 단계 적합을 만들려는 시도에 문제가 발생합니다. 이 Frisch-Waugh-Lovell 정리는 다른 설명 변수에 대해 취한 반응 및 관심 예측 변수에 대한 중간 잔차를 얻는 기능에 달려 있습니다. 이 경우 "분류 된"응답 변수에서만 잔차를 얻을 수 있습니다. 로지스틱 회귀 분석을위한 2 단계 피팅 프로세스를 만들려면 기본 잠재 응답에 액세스하지 않고이 분류 된 응답 변수의 응답 잔차를 사용해야합니다. 이것은 주요 장애물처럼 보이며 불가능을 입증하지는 않지만 모델을 두 단계로 맞추는 것은 불가능합니다.
아래에서는 로지스틱 회귀 분석에 적합한 2 단계 프로세스를 찾는 데 필요한 사항에 대해 설명합니다. 이 문제에 대한 해결책이 있는지 또는 불가능하다는 증거가 있는지 확실하지 않지만 여기에있는 자료는 필요한 것을 이해하는 데 도움이 될 것입니다.
2 단계 로지스틱 회귀 분석은 어떤 모양입니까? 각 단계에서 최대 우도 추정을 통해 모수가 추정되는 로지스틱 회귀 모형에 대해 2 단계 적합을 구성한다고 가정합니다. 프로세스가 다음 두 모델에 맞는 중간 단계를 포함하기를 원합니다.
Yi=I(Y∗∗i>0)Y∗∗i=α0+αXxi+τi Zi=γ0+γXxi+δiτi∼IID Logistic(0,1),δi∼IID g.
MLE을 통해 이러한 모델의 계수를 추정하면 중간 피팅 값 됩니다. 그런 다음 두 번째 단계에서 모델을 맞 춥니 다.α^0,α^X,γ^0,γ^X
Yi=logistic(α^0+α^1xi)+βZ(zi−γ^0−γ^Xxi)+ϵiϵi∼IID f.
명시된 바와 같이, 절차에는 많은 고정 요소가 있지만, 이 단계에서 밀도 함수 와 는 지정되지 않은 채로 남아 있습니다 (데이터에 의존하지 않는 평균 분포는 0이어야 함). 이러한 제약 하에서 두 단계 피팅 방법을 구하는 우리 선택할 필요 및 에 대한 MLE되도록 이 두 단계의 모델 맞춤 알고리즘은 MLE가 한 단계 로지스틱 회귀 모형에서 얻은 것과 동일 위.gfgfβZ
이것이 가능한지 확인하기 위해 먼저 첫 번째 단계에서 모든 추정 매개 변수를 작성하십시오.
ℓy|x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
하자 두 번째 단계의 로그 우도 함수는 다음과 같습니다.ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
이 함수의 최대 값은 다중 로지스틱 회귀 모델의 MLE이어야합니다. 다시 말해, 다음이 필요합니다.
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
이 문제에 대한 해결책이 있는지 또는 해결책이 없다는 증거를 찾기 위해 다른 사람들에게 맡깁니다. 로지스틱 회귀 분석에서 잠재 반응 변수의 "분류"로 인해 2 단계 프로세스를 찾는 것이 불가능할 것으로 생각됩니다.