로지스틱 회귀 분석에서 잔차는 무엇을 의미합니까?


62

질문에 답하면서 John Christie는 로지스틱 회귀 모형의 적합도를 잔차를 평가하여 평가해야한다고 제안했습니다. OLS의 잔차를 해석하는 방법에 익숙합니다. DV와 같은 척도에 있으며 모형에서 예측 한 y와 y의 차이가 매우 명확합니다. 그러나 로지스틱 회귀 분석의 경우 과거에는 로지스틱 회귀 분석에서 잔차가 무엇을 의미하는지 알지 못했기 때문에 일반적으로 AIC와 같은 모형 적합도 추정치를 살펴 보았습니다. R의 도움말 파일 을 조금 살펴본 후 R에는 5 가지 유형의 glm 잔차가 있음을 알 수 있습니다 c("deviance", "pearson", "working","response", "partial"). 도움말 파일은 다음을 참조합니다.

사본이 없습니다. 이러한 각 유형을 해석하는 방법을 설명하는 간단한 방법이 있습니까? 로지스틱 맥락에서 제곱 잔차의 합은 의미있는 모형 적합도를 제공합니까? 아니면 정보 기준을 사용하는 것이 더 낫습니까?


2
"피어슨", "작업 중", "응답"및 "부분"잔차의 특성과 같이이 질문에 답하지 않은 요소가 있지만 지금은 Thylacoleo의 답변을 받아들입니다.
russellpierce

binnedplotR 패키지 의 함수 가 매우 유용한 잔차 플롯을 제공한다는 것을 알았습니다 . Gelman and Hill 2007의 p.97-101에 잘 설명되어 있습니다.
공역 사전

1
모형 적합을 확인하는 정말 쉬운 방법 중 하나는 관측 된 비율과 예측 된 비율을 나타내는 것입니다. 그러나 베르누이 회귀가있는 경우 (즉, 모든 관측치에 독립 변수의 고유 한 조합이 있으므로 ) 0과 1의 행만 표시되므로 작동하지 않습니다. ni=1
확률

예, 슬프게도 저는 보통 Bernoulli DV를 사용하고 있습니다.
russellpierce

답변:


32

p=logit1(Xβ)X

logit1(Xβ)

로지스틱 회귀 분석은 제곱 편차 편차의 합이 최소화되도록 베타 값을 찾는 것과 유사합니다.

이것은 플롯으로 설명 할 수 있지만 업로드하는 방법을 모르겠습니다.


1
이미지 등록 : 무료 이미지 호스팅 사이트 (검색 Google) 중 하나를 사용하여 해당 사이트에 플롯을 업로드하고 여기에 연결하십시오.

원래 답변의 오류를 수정했습니다. 먼저 p = logit (X beta)를 작성했습니다. 실제로 예측 확률은 선형 조합의 역 로짓 p = inv-logit (X beta)입니다. R에서 이것은 p <-plogit (X beta), p = exp (X beta) / (1 + exp (X * beta))로 계산됩니다.
Thylacoleo

1
어느 R 패키지 plogit에서 왔습니까? 여기에서 정의하거나 다른 곳에서 가져 오는지 확실하지 않습니다.
Amyunimus

1
@Amyunimus는 plogit어떤 패키지는 (적어도 더 이상) 필요하지 R (통계)에
russellpierce

7

Pearsons 잔차에서

피어슨 잔차는 관측 확률과 추정 확률의 차이를 추정 확률의 이항 표준 편차로 나눈 값입니다. 따라서 잔차를 표준화합니다. 큰 표본의 경우 표준화 잔차는 정규 분포를 가져야합니다.

스콧 메 나드 (2002). 로지스틱 회귀 분석 적용, 2 판. 캘리포니아 주 오크스 옥스 : Sage Publications. 시리즈 : 사회 과학의 정량적 적용, No. 106. First ed., 1995. 4.4 장 참조


8
nini<5

5

작업 잔차는 반복 가중 최소 자승법의 최종 반복 잔차입니다 . 모델 실행의 마지막 반복을 생각할 때 잔차를 의미한다고 생각합니다. 그것은 모델 러닝이 반복적 인 운동이라는 토론을 야기 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.