다른 회귀 변수에 대한 로지스틱 회귀 분석 잔차 회귀


9

연속 반응에 OLS 회귀를 적용하면 각 공변량에서 잔차의 회귀를 순차적으로 실행하여 다중 회귀 방정식을 만들 수 있습니다. 내 질문은 로지스틱 회귀 잔차 를 통해 로지스틱 회귀로 이것을 수행하는 방법이 있습니까?

내가 추정 할 경우 즉, 접근 방식을 모델링 선형 일반화 된 표준을 사용하여에 대한 로지스틱 회귀 분석을 실행하는 방법이 X 의사 잔류 얻을 R_1 , 다음 회귀 R_1Z 로는 로지스틱 회귀 계수의 편견 추정치를 얻습니다. 교과서 또는 문헌에 대한 언급이 인정 될 것이다.Pr(Y=1|x,z)xR1R1z


제 생각에는 REML이 GLM으로 확장되지 않는 것과 같은 이유로 이것이 작동하지 않을 것입니다. 최소 제곱의 마법이 사라집니다. 잠재 변수를 시뮬레이션의 일부로 샘플링 한 완전히 베이지안 컨텍스트에서 작동하는지 궁금합니다. 내가하고 싶었던 이유는 다른 클래스의 변수에 대해 glmnet을 실행하고 클래스에 대해 다른 양의 정규화를 얻을 수 있기 때문입니다. 물론이 효과를 얻는 다른 방법이 있습니다.
Ben Ogorek

이것은 로지스틱 회귀 분석에 백 피팅 알고리즘을 사용하는 것과 매우 유사합니까?
usεr11852

아래 주석에서 이것을 언급했지만 많은 구현에서 'base'예측 (glmnet의 오프셋 매개 변수)을 전달할 수 있으므로 종속 변수를 회귀 한 후에 가능할 수 있습니다. @BenOgorek 당신은 본문에 목적을 추가하고
싶습니까

@ seanv507 정규화 부분을 추가하면 범위가 너무 커질 것입니다. 특히 아래에 좋은 답변이 있습니다. 이 Q & A가 끝난 후에 오프셋이 실제로 우리의 친구가 될 수있는 별도의 질문을 작성합니다.
Ben Ogorek

이것은 답변이 아니지만 의견을 말할만큼 충분한 평판이 없습니다. 문제는 다른 회귀에 (즉, 잔류의 기능에 영향을 미치지에 관한 예측을 )보다는에 잔류 회귀 잔차 . 나는 대답에 혼란스러워합니다.
T Wu

답변:


3

표준 다중 선형 회귀 분석에서 2 단계로 평범한 제곱 (OLS) 추정값을 맞추는 기능은 Frisch–Waugh-Lovell 정리 에서 나옵니다 . 이 정리는 다중 선형 모형에서 특정 예측 변수에 대한 계수의 추정치가 예측 변수 잔차 (잔여 물)에 대한 응답 잔차 ( 다른 설명 변수 에 대한 응답 변수의 회귀 잔차)를 회귀하여 얻은 추정치 와 같습니다. 다른 설명 변수 에 대한 예측 변수의 회귀에서 ). 분명히, 당신은 로지스틱 회귀 모형에 사용될 수있는이 정리에 대한 비유를 찾고 있습니다.

이 질문에 대해, 기억하는 것이 도움이된다 로지스틱 회귀의 잠재 변수 특성을 :

Yi=I(Yi>0)Yi=β0+βXxi+βZzi+εiεiIID Logistic(0,1).

이 모델의 특성화에서 잠재 응답 변수 는 관찰 할 수 없으며, 대신 잠재 응답이 긍정적인지 아닌지를 알려주 는 표시기 를 관찰합니다 . 이 형태의 모형은 약간 다른 오차 분포 (정규 분포 대신 로지스틱 분포)를 사용한다는 점을 제외하고는 다중 선형 회귀와 유사하며, 더 중요한 것은 잠재 반응이 긍정적인지 아닌지를 나타내는 지표 만 관찰한다는 것입니다 .YiYi

이로 인해 모델의 2 단계 적합을 만들려는 시도에 문제가 발생합니다. 이 Frisch-Waugh-Lovell 정리는 다른 설명 변수에 대해 취한 반응 및 관심 예측 변수에 대한 중간 잔차를 얻는 기능에 달려 있습니다. 이 경우 "분류 된"응답 변수에서만 잔차를 얻을 수 있습니다. 로지스틱 회귀 분석을위한 2 단계 피팅 프로세스를 만들려면 기본 잠재 응답에 액세스하지 않고이 분류 된 응답 변수의 응답 잔차를 사용해야합니다. 이것은 주요 장애물처럼 보이며 불가능을 입증하지는 않지만 모델을 두 단계로 맞추는 것은 불가능합니다.

아래에서는 로지스틱 회귀 분석에 적합한 2 단계 프로세스를 찾는 데 필요한 사항에 대해 설명합니다. 이 문제에 대한 해결책이 있는지 또는 불가능하다는 증거가 있는지 확실하지 않지만 여기에있는 자료는 필요한 것을 이해하는 데 도움이 될 것입니다.


2 단계 로지스틱 회귀 분석은 어떤 모양입니까? 각 단계에서 최대 우도 추정을 통해 모수가 추정되는 로지스틱 회귀 모형에 대해 2 단계 적합을 구성한다고 가정합니다. 프로세스가 다음 두 모델에 맞는 중간 단계를 포함하기를 원합니다.

Yi=I(Yi>0)Yi=α0+αXxi+τiτiIID Logistic(0,1),  Zi=γ0+γXxi+δiδiIID g.

MLE을 통해 이러한 모델의 계수를 추정하면 중간 피팅 값 됩니다. 그런 다음 두 번째 단계에서 모델을 맞 춥니 다.α^0,α^X,γ^0,γ^X

Yi=logistic(α^0+α^1xi)+βZ(ziγ^0γ^Xxi)+ϵiϵiIID f.

명시된 바와 같이, 절차에는 많은 고정 요소가 있지만, 이 단계에서 밀도 함수 와 는 지정되지 않은 채로 남아 있습니다 (데이터에 의존하지 않는 평균 분포는 0이어야 함). 이러한 제약 하에서 두 단계 피팅 방법을 구하는 우리 선택할 필요 및 에 대한 MLE되도록 이 두 단계의 모델 맞춤 알고리즘은 MLE가 한 단계 로지스틱 회귀 모형에서 얻은 것과 동일 위.gfgfβZ

이것이 가능한지 확인하기 위해 먼저 첫 번째 단계에서 모든 추정 매개 변수를 작성하십시오.

y|x(α^0,α^X)=maxα0,αXi=1nlnBern(yi|logistic(α0+αXxi)),z|x(γ^0,γ^X)=maxγ0,γXi=1nlng(ziγ0γXxi).

하자 두 번째 단계의 로그 우도 함수는 다음과 같습니다.ϵi=yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)

y|z|x(βZ)=i=1nlnf(yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)).

이 함수의 최대 값은 다중 로지스틱 회귀 모델의 MLE이어야합니다. 다시 말해, 다음이 필요합니다.

arg max βXy|z|x(βZ)=arg max βXmaxβ0,βZi=1nlnBern(yi|logistic(β0+βXxi+βZzi)).

이 문제에 대한 해결책이 있는지 또는 해결책이 없다는 증거를 찾기 위해 다른 사람들에게 맡깁니다. 로지스틱 회귀 분석에서 잠재 반응 변수의 "분류"로 인해 2 단계 프로세스를 찾는 것이 불가능할 것으로 생각됩니다.


1
@Ben 안녕하세요, Frisch–Waugh-Lovell 정리에 대해 가르쳐 주셔서 감사합니다. 나는 현상금에 그것을 불었다- "만료되었다"는 생각은 그것이 광고가 중단되었음을 의미했다. 미안합니다. 나는 당신의 가능성 기반 아이디어를 좋아합니다. 그것을 시도하거나 비슷한 것을 게시하고 아래에 게시 할 수 있습니다.
Ben Ogorek

@ Ben Ogorek : 현상금에 대해 걱정할 필요가 없습니다. 대답이 기뻤습니다.
벤-복원 모니카

@ Ben Ogorek : (이더로 사라지는 현상금 25 점을 보충하려면 사이트를 돌아 다니면서 3 개의 답변을 투표하십시오. 그러면 업장이 회복됩니다!)
Ben-Reinstate Monica

1
끝난! (그리고 나는 먼저 읽었습니다).
Ben Ogorek

3

질문을 잘못 해석했을 수 있습니다. OP가 지정한 방식 으로 잔차 회귀하여 선형 회귀 방정식을 만들 수 있을지 의문 입니다. OP의 방법은 예측 변수가 서로 독립적 인 경우에만 작동합니다.

제대로 작동 시키려면 가 결과 벡터 라고 가정 하고, 는 이미 모형에있는 예측 변수의 모형 행렬이며 을 포함 합니다. 당신의 회귀의 잔류 회귀 할 필요가 에 의 회귀의 잔류에 대해 에 에 대한 OLS 계수를 얻기 .yXx1yXx1Xx1

다음은 간단한 예입니다.

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

OLS로 모델 맞추기 :

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446 

잔차에 대한 회귀 :

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874 

이것은 잘못된 것입니다.

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01 

x2에 대한 올바른 계수를 반환하는 x2의 차이에 따라 y의 예상 차이에 맞춰 x1을 일정하게 유지합니다 (y와 x1에서 모두 빼냄).

그러나 로지스틱 회귀 분석에서는 로지스틱 회귀 계수가 혼란스런 관계가없는 경우에도 생략 된 변수 바이어스를 겪기 때문에 더욱 문제가 될 수 있습니다 ( 여기여기 참조) . 결과의 모든 예측 변수가 모형에 있지 않으면 실제 모집단 모수의 편견없는 추정치. 또한 모든 값이 0과 1 사이 인 두 번째 로지스틱 회귀 분석을 수행 할 수있는 모형의 잔차를 알지 못합니다.

잔차에 대한 회귀 분석에 대한 일부 참조 :

  • Maxwell, SE, Delaney, HD, & Manheimer, JM (1985). 잔차 및 Ancova의 Anova : 모델 비교 및 ​​그래프를 사용하여 환영 수정. 교육 통계 저널, 10 (3), 197–209. http://journals.sagepub.com/doi/pdf/10.3102/10769986010003197 에서 검색했습니다.
  • Freckleton, RP (2002), 생태 잔차 오용 : 잔차 회귀 vs. 다중 회귀. 동물 생태학 저널, 71 , 542-545. 도 : 10.1046 / j.1365-2656.2002.00618.x

첫 번째 두 단락은 약간 오해의 소지가 있거나 명확하지 않습니다 ... 실제로 잔차에 대한 선형 회귀 분석을 시작하는 것이 더 좋습니다. (+ 1) 통계 학습의 요소에서 찾을 수 있습니다. 단일 회귀 하위 섹션에서 다중 회귀?)
seanv507

많은 구현에서 '기본'예측 (glmnet의 오프셋 매개 변수)을 전달할 수 있으므로 종속 변수를 회귀 한 후에 가능할 수 있습니다.
seanv507

@ seanv507 이미 답변에 포함 시켰습니다. 내가 가진 마지막 코드 데모입니다. OP가 설명한 방식으로는 예측 변수의 잔차를 회귀하는 것이 불가능합니다. 그러나 그것이 처음부터 올바른 방법을 보여주기 위해 다시 작성할 수 있습니다.
Heteroskedastic Jim

예, 처음부터 올바른 방법을 보여주기 위해 다시 작성했습니다.
seanv507

@ seanv507 기본 예측을 전달할 수 있다는 의미를 모르십니까? 그리고 종속 변수를 회귀?
Heteroskedastic Jim

1

내 대답이 당신이 당신의 주제를 어떻게 말했는지에 대한 표현이 약간 바뀌기 때문에 나는 당신의 질문을 잘못 해석하지 않기를 바랍니다.

한 번에 하나의 독립 변수를 추가하여 회귀 모델을 작성하려고합니다. 그리고 당신은 어떤 예상 변수가 Y와 X1 사이의 첫 회귀 잔차와 가장 높은 상관 관계를 갖는지를 관찰함으로써 그렇게합니다. 따라서이 첫 번째 잔차와의 상관 관계가 가장 높은 변수는 X2가됩니다. 이제 두 개의 독립 변수 X1 & X2가있는 모델이 생겼습니다. 그리고이 정확한 프로세스를 계속 진행하여 X3, X4 등을 선택합니다. 이는 단계적인 진행 프로세스입니다.

로지스틱 회귀 분석은 종속 변수가 홀수 (또는 로짓)의 로그인 OLS 회귀와 거의 유사하기 때문에 로지스틱 회귀 분석과 동일한 작업을 수행 할 수 있습니다. 그러나 Y가 로짓인지 여부는 위에서 언급 한 단계적 진행 프로세스에 영향을 미치지 않습니다.

OLS는 실제 데이터에 맞게 제곱 오차의 합을 최소화합니다. 로짓 회귀 분석은 OLS와 완전히 다른 피팅을 생성하는 최대 가능성 프로세스를 사용합니다. 그리고 그것 (적합 메커니즘)도 다중 회귀 모델을 구축 할 수있는 단계적 전진 프로세스에 영향을 미치지 않아야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.