@NickCox는 두 그룹이있을 때 잔차 표시에 대해 잘 설명했습니다. 이 글의 배후에있는 몇 가지 명백한 질문과 암시적인 가정에 대해 말씀 드리겠습니다.
이 질문은 "독립 변수가 이진일 때 동질성과 같은 선형 회귀 가정을 어떻게 테스트합니까?" 당신은이 다중 회귀 모형을. (다중) 회귀 모형은 하나의 오차 항만 있다고 가정하며, 이는 어느 곳에서나 일정합니다. 각 예측 변수에 대한 이분산성을 개별적으로 확인하는 것은별로 의미가 없으며 (필요하지도 않습니다). 이것이 다중 회귀 모델이있을 때 잔차 대 예측값의 이분산성을 진단하는 이유입니다. 아마도이 목적에 가장 유용한 도표는 척도 위치 도표 ( '확산 수준'이라고도 함)인데, 이는 잔차의 절대 값 대 예측 된 값의 절대 값의 제곱근의 도표입니다. 예를 보려면선형 회귀 모형에서 "일정 분산"이란 무엇을 의미합니까?
마찬가지로 각 예측 변수의 잔차가 정규성을 확인하지 않아도됩니다. (나는 솔직히 그것이 어떻게 작동하는지조차 모른다.)
개별 예측 변수에 대한 잔차 그림을 사용하여 수행 할 수있는 작업은 기능 형태가 올바르게 지정되어 있는지 확인합니다. 예를 들어, 잔차가 포물선을 형성하면 놓친 데이터에 곡률이 있습니다. 예제를 보려면 @Glen_b의 답변에서 두 번째 플롯을보십시오 . 선형 회귀 분석에서 모델 품질 확인 . 그러나이 문제는 이진 예측 변수에는 적용되지 않습니다.
가치있는 것에 대해 범주 형 예측 변수 만있는 경우 이분산성을 테스트 할 수 있습니다. 당신은 Levene의 테스트를 사용합니다. 여기에서 논의합니다. 왜 Levene의 F 비율이 아닌 분산의 동등성 검정을 테스트합니까? R에서는 자동차 패키지의 ? leveneTest 를 사용 합니다.
편집 : 다중 회귀 모델을 사용할 때 잔차 대 개별 예측 변수를 보는 것이 도움이되지 않는 점을 더 잘 설명하려면 다음 예제를 고려하십시오.
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
데이터 생성 프로세스에서 이분산성이 없음을 알 수 있습니다. 모델의 관련 플롯을 조사하여 문제가있는 이분산성을 암시하는지 살펴 보겠습니다.
아니요, 걱정할 것이 없습니다. 그러나 잔차 대 개별 이진 예측 변수의 플롯을 살펴보고 이분산성이 있는지 확인하십시오.
어, 문제가있는 것 같습니다. 우리는 데이터 생성 과정에서 이분산성이 없다는 것을 알고 있으며, 이것을 탐구하기위한 주요 플롯은 어느 것도 보여주지 않았으므로 여기에서 무슨 일이 일어나고 있습니까? 아마도이 음모가 도움이 될 것입니다.
x1
그리고 x2
서로 독립적이 아니다. 또한, x2 = 1
극단에 있는 관측 . 그들은 더 많은 레버리지를 가지고 있기 때문에 그들의 잔차는 자연스럽게 작습니다. 그럼에도 불구하고 이분산성은 없습니다.
집으로 가져 가기 메시지 : 가장 좋은 방법은 적절한 도표 (잔차 대 적합 도표 및 확산 수준 도표)에서만 이분산성을 진단하는 것입니다.