답변:
이는 예측값에 대한 개별 오차를 플로팅 할 때 오차 예측값의 분산이 일정해야 함을 의미합니다. 아래 그림의 빨간색 화살표를 참조하십시오. 빨간색 선의 길이 (분산의 프록시)는 동일합니다.
이것은 수학 불안이있는 사람들에게조차도 수식을 보는 것이 도움이되는 곳입니다 (필자는 반드시 제안하지는 않습니다). 간단한 선형 회귀 모델 은 다음과 같습니다.
여기서 주목해야 할 것은이 모델이 명시 적으로 있다는 것입니다 데이터의 의미있는 정보 ( " ")를 추정 한 후에는 백색 잡음 외에는 아무것도 남지 않습니다. 또한 오차는 의 분산으로 정규 분포로 분포 합니다.
은 변수 가 아님 을 인식하는 것이 중요 합니다 (중학교 수준의 대수학에서는이를 호출 할 것임). 다양하지 않습니다. 는 다릅니다. 는 다릅니다. 오류 용어 은 무작위로 다양합니다 . 즉, 임의 변수 입니다. 그러나 매개 변수 ( 는 우리가 모르는 값에 대한 자리 표시 자입니다. 대신, 그들은 알려지지 않은 상수 입니다. 이 논의의 결론은 가 무엇인지 (즉, 어떤 값이 거기에 꽂혀 있는지),동일하게 유지됩니다. 즉, 오차 / 잔차의 분산은 일정합니다. 대비 및 명료도를
이 경우 값을 입력 합니다 (세 번째 줄부터 시작) 함수 통해 전달하고 정확한 값에서 얻는 오차 분산을 얻습니다 . 그런 다음 평소와 같이 나머지 방정식을 옮깁니다.
X f ( X ) X
위의 논의는 가정의 본질을 이해 하는 데 도움이되어야 한다. 질문은 또한 그것을 평가 하는 방법에 대해 묻습니다 . 기본적으로 두 가지 접근 방식이 있습니다 : 공식적인 가설 검정과 도표 작성. 이분산성 테스트는 실험적인 데이터 (즉, 고정 된 값에서만 발생 ) 또는 분산 분석이있는 경우 사용할 수 있습니다. 여기에서 그러한 테스트에 대해 논의합니다. Levene이 F- 비가 아닌 분산의 동등성을 테스트하는 이유. 그러나 나는 음모를 보는 것이 가장 좋다고 생각하는 경향이 있습니다. @Penquin_Knight는 적합치에 대해 동질성 (homoscedasticity)이 얻어지는 모델의 잔차를 플로팅하여 일정한 분산이 어떻게 보이는지 잘 보여줍니다. 이분산성은 원시 데이터의 플롯 또는 스케일 위치 (확산 레벨이라고도 함) 플롯에서 감지 될 수 있습니다. R은 편리하게 호출 할 수 있습니다 plot.lm(model, which=2)
. 적합치 에 대한 잔차의 절대 값의 제곱근이며, 최저 곡선이 유용하게 중첩됩니다. lowess fit을 기울이지 않고 평평하게 만들고 싶습니다.
아래의 도표를 고려해보십시오.이 세 가지 다른 유형의 그림에서 동형 이성 데이터와 이성 이체 데이터가 어떻게 보이는지 비교합니다. 상위 2 개의이 분산 그림에 대한 깔때기 모양과 마지막 것에서 위쪽으로 기울어 진 lowess 선에 주목하십시오.
완전성을 위해 다음은 이러한 데이터를 생성하는 데 사용한 코드입니다.
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)