선형 회귀 분석에서 이진 / 이분법 독립 예측 변수에 대한 잔차 분석을 수행하는 방법은 무엇입니까?


11

나는 기금 관리 수익을 예측하기 위해 R에서 아래의 다중 선형 회귀를 수행하고 있습니다.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

여기서는 GRI와 MBA 만 이진 / 이분법 예측 변수입니다. 나머지 예측 변수는 연속적입니다.

이 코드를 사용하여 이진 변수에 대한 잔차 그림을 생성하고 있습니다.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

내 질문 : 연속 예측 변수에 대한 잔차 그림을 검사하는 방법을 알고 있지만 독립 변수가 이항 일 때 동족 성과 같은 선형 회귀 가정을 어떻게 테스트합니까?

잔차 그림 :

GR1의 잔차 그림 MBA에 대한 잔차 그림

답변:


8

@NickCox는 두 그룹이있을 때 잔차 표시에 대해 잘 설명했습니다. 이 글의 배후에있는 몇 가지 명백한 질문과 암시적인 가정에 대해 말씀 드리겠습니다.

이 질문은 "독립 변수가 이진일 때 동질성과 같은 선형 회귀 가정을 어떻게 테스트합니까?" 당신은이 다중 회귀 모형을. (다중) 회귀 모형은 하나의 오차 항만 있다고 가정하며, 이는 어느 곳에서나 일정합니다. 각 예측 변수에 대한 이분산성을 개별적으로 확인하는 것은별로 의미가 없으며 (필요하지도 않습니다). 이것이 다중 회귀 모델이있을 때 잔차 대 예측값의 이분산성을 진단하는 이유입니다. 아마도이 목적에 가장 유용한 도표는 척도 위치 도표 ( '확산 수준'이라고도 함)인데, 이는 잔차의 절대 값 대 예측 된 값의 절대 값의 제곱근의 도표입니다. 예를 보려면선형 회귀 모형에서 "일정 분산"이란 무엇을 의미합니까?

마찬가지로 각 예측 변수의 잔차가 정규성을 확인하지 않아도됩니다. (나는 솔직히 그것이 어떻게 작동하는지조차 모른다.)

개별 예측 변수에 대한 잔차 그림을 사용하여 수행 할 수있는 작업은 기능 형태가 올바르게 지정되어 있는지 확인합니다. 예를 들어, 잔차가 포물선을 형성하면 놓친 데이터에 곡률이 있습니다. 예제를 보려면 @Glen_b의 답변에서 두 번째 플롯을보십시오 . 선형 회귀 분석에서 모델 품질 확인 . 그러나이 문제는 이진 예측 변수에는 적용되지 않습니다.

가치있는 것에 대해 범주 형 예측 변수 만있는 경우 이분산성을 테스트 할 수 있습니다. 당신은 Levene의 테스트를 사용합니다. 여기에서 논의합니다. 왜 Levene의 F 비율이 아닌 분산의 동등성 검정을 테스트합니까? R에서는 자동차 패키지의 ? leveneTest 를 사용 합니다.


편집 : 다중 회귀 모델을 사용할 때 잔차 대 개별 예측 변수를 보는 것이 도움이되지 않는 점을 더 잘 설명하려면 다음 예제를 고려하십시오.

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

데이터 생성 프로세스에서 이분산성이 없음을 알 수 있습니다. 모델의 관련 플롯을 조사하여 문제가있는 이분산성을 암시하는지 살펴 보겠습니다.

여기에 이미지 설명을 입력하십시오

아니요, 걱정할 것이 없습니다. 그러나 잔차 대 개별 이진 예측 변수의 플롯을 살펴보고 이분산성이 있는지 확인하십시오.

여기에 이미지 설명을 입력하십시오

어, 문제가있는 것 같습니다. 우리는 데이터 생성 과정에서 이분산성이 없다는 것을 알고 있으며, 이것을 탐구하기위한 주요 플롯은 어느 것도 보여주지 않았으므로 여기에서 무슨 일이 일어나고 있습니까? 아마도이 음모가 도움이 될 것입니다.

여기에 이미지 설명을 입력하십시오

x1그리고 x2서로 독립적이 아니다. 또한, x2 = 1극단에 있는 관측 . 그들은 더 많은 레버리지를 가지고 있기 때문에 그들의 잔차는 자연스럽게 작습니다. 그럼에도 불구하고 이분산성은 없습니다.

집으로 가져 가기 메시지 : 가장 좋은 방법은 적절한 도표 (잔차 대 적합 도표 및 확산 수준 도표)에서만 이분산성을 진단하는 것입니다.


감사! 동일한 회귀 분석을 위해 Residual Vs Y가 동종임을 발견했지만 Residual Vs tenure (independent)를 확인하면 깔때기 모양이었습니다. 그래서이 권리를 수정하기 위해 약간의 변환을해야합니까? 그렇다면이 맥락에서 왜 잔류 VS 독립 변수를 검사 할 필요가 없다고 언급했는지 이해하고 싶습니까?
GeorgeOfTheRF

@ mrcet007, 아니요 변환이 필요하지 않습니다. 해상도 대 적합치가 이분산성을 나타내지 않으면 괜찮습니다. 아마도 그림이 도움이 될 것입니다. 데모를 추가하기 위해 답변을 편집했습니다.
gung-모니 티 복원

이 링크 확인할 수 있습니다 people.duke.edu/~rnau/testing.htm을 . 잔차 Vs 독립 변수도 확인합니다. 토론을 위해 공유하기 만하면됩니다. 이것에 대해 언급 할 수 있습니까? 내가 생각했던 것은 항상 잔류 대 독립뿐만 아니라 예측 된 잔류 V를 모두 확인해야한다는 것입니다. 오차 (a) 대 시간 (시계열 데이터의 경우) 대 (b) 대 예측 (c) 대 독립 변수와의 상
동성

내 의견은 이분산성을 확인하기 위해 잔차 대 예측 그래프를 보는 이유와 잔차 대 IV 그래프를 보는 것이 어떻게 당신을 타락시킬 수 있는지에 대한 예를 보여 주었다는 것입니다. 다른 말이 무엇인지 모르겠습니다.
gung-복직 모니카

6

이 경우 기존 잔차 그림이 더 어려워지는 것이 사실입니다. 분포가 거의 같은지 확인하기가 훨씬 더 어려울 수 있습니다. 그러나 여기에는 쉬운 대안이 있습니다. 두 개의 분포를 비교하고 있으며이를 수행 할 수있는 좋은 방법이 많이 있습니다. 일부 가능성은 나란히 또는 중첩 된 Quantile 플롯, 히스토그램 또는 박스 플롯입니다. 내 자신의 편견은 장식되지 않은 상자 그림은 종종 여기에서 과도하게 사용된다는 것입니다. 중요하지 않은 것으로 종종 무시할 수 있더라도 일반적으로 살펴보고자하는 세부 사항을 억제합니다. 그러나 케이크를 먹고 먹을 수 있습니다.

R을 사용하지만 질문에 대한 통계는 R에 국한되지 않습니다. 여기에서는 단일 이진 예측 변수에 대한 회귀 분석에 Stata를 사용한 다음 예측 변수의 두 수준에 대한 잔차를 비교하는 Quantile 상자 그림을 시작했습니다. 이 예의 실제 결론은 분포가 거의 동일하다는 것입니다.

여기에 이미지 설명을 입력하십시오

도표가 암호처럼 보이면 더 자세히 설명합니다. 각 분포에 대해 Quantile 도표가 있습니다. 즉, 정렬 된 값이 (분수) 순위에 대해 그려집니다. 중앙값과 사 분위수를 표시하는 상자가 겹쳐져 있습니다. 따라서 각 상자는 일반적인 방식으로 수직으로 정의되고 분수 순위 및 대한 선으로 묶여 있기 때문에 수평으로 정의됩니다 .3 / 41/43/4

참고 : 특이 치가 높은 상자 그림을 표시하는 방법 도 참조하십시오 . R을 사용한 @Glen_b의 유사한 플롯 예제를 포함합니다. 이러한 플롯은 괜찮은 소프트웨어에서 쉬워야합니다. 그렇지 않은 경우 소프트웨어가 적당하지 않습니다.


+1 아름다운. 여기서 잔차에 대한 가설 검정의 역할이 있다고 생각하십니까?
Alexis

@gung 편집 내용을 편집했습니다. 당신이 그것을 잘못 이해하면 원본은 충분히 명확하지 않은 것 같습니다.
Nick Cox

2
@Alexis 감사합니다! 이 경우 그래프에서 등가 산란 가설을 비공식적으로 지원한다는 생각에 만족합니다. 나는 분석의 모든 작은 단계가 P- 값으로 성화되어야한다고 생각하는 학교가 아닙니다. 불행히도, 당신이 올바른 길을 가고 있는지 확신하는 것은 결코 쉬운 일이 아니지만, 의심이가는 경우 실제로 다른 모델도 즐겁게 사용할 것입니다. 여기서 예제는 질문에 대한 것으로, 진지한 분석의 일부가 아닙니다.
Nick Cox

사과합니다, 닉 나는 그 문구의 요점을 오해했다. 나는 그것이 오타라고 생각했다. 지금은 더 명확합니다.
gung-Monica Monica 복원

1
@ whuber 그것은 괜찮습니다. 어떤 사람들은 혼란스러워서 들었습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.