선형 회귀 모형에서“일정 분산”이란 무엇을 의미합니까?


53

오차항에 "일정한 분산"이란 무엇입니까? 보시다시피, 하나의 종속 변수와 하나의 독립 변수가있는 데이터가 있습니다. 상수 분산은 선형 회귀의 가정 중 하나입니다. 동성애가 무엇을 의미하는지 궁금합니다. 500 개의 행이 있더라도 분명히 일정한 단일 분산 값을 갖습니다. 분산을 어떤 변수와 비교해야합니까?

답변:


34

이는 예측값에 대한 개별 오차를 플로팅 할 때 오차 예측값의 분산이 일정해야 함을 의미합니다. 아래 그림의 빨간색 화살표를 참조하십시오. 빨간색 선의 길이 (분산의 프록시)는 동일합니다.

여기에 이미지 설명을 입력하십시오


1
알았어 알았어 !! 그러나 가정이므로 모델을 실행하기 전에 가정의 유효성을 검사 할 필요가 없습니다. 그리고 왜 우리는이 가정이 필요합니까
Mukul

2
일부 가정은 모델이 실행 된 후에 만 ​​테스트 할 수 있습니다. 모델 계산은 수학 해석 일 뿐이며 모델 해석과 동일하지 않습니다.
John

6
범위는 분산 펭귄 기사와 같지 않으므로 여기에서 문구를 업데이트 할 수 있습니다.
John

4
분산 가정이 잘못되면 일반적으로 표준 오류가 잘못되고 가설 검정이 잘못된 결론을 도출 할 수 있음을 의미합니다. (다른 John)
John

4
약간 다릅니다. 나는 이분산성이 반드시 베타의 표준 오차가 잘못되었다는 것을 의미하지는 않지만, OLS 추정기는 더 이상 가장 효율적인 편견 추정기가 아닙니다. 즉, 일정한 분산이 있거나 (Y의 변환으로 인해) 불일치를 정확하게 고려한 경우 (아마도 일반 최소 제곱 추정기를 통해) 더 많은 전력 / 정밀도를 얻을 수 있습니다.
gung-복직 모니카

58

이것은 수학 불안이있는 사람들에게조차도 수식을 보는 것이 도움이되는 곳입니다 (필자는 반드시 제안하지는 않습니다). 간단한 선형 회귀 모델 은 다음과 같습니다. 여기서 주목해야 할 것은이 모델이 명시 적으로 있다는 것입니다 데이터의 의미있는 정보 ( " ")를 추정 한 후에는 백색 잡음 외에는 아무것도 남지 않습니다. 또한 오차는 의 분산으로 정규 분포로 분포 합니다.

Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

변수 가 아님 을 인식하는 것이 중요 합니다 (중학교 수준의 대수학에서는이를 호출 할 것임). 다양하지 않습니다. 는 다릅니다. 는 다릅니다. 오류 용어 은 무작위로 다양합니다 . 즉, 임의 변수 입니다. 그러나 매개 변수 ( 는 우리가 모르는 값에 대한 자리 표시 자입니다. 대신, 그들은 알려지지 않은 상수 입니다. 이 논의의 결론은 가 무엇인지 (즉, 어떤 값이 거기에 꽂혀 있는지),σε2XYεβ0, β1, σε2)Xσε2동일하게 유지됩니다. 즉, 오차 / 잔차의 분산은 일정합니다. 대비 및 명료도를 이 경우 값을 입력 합니다 (세 번째 줄부터 시작) 함수 통해 전달하고 정확한 값에서 얻는 오차 분산을 얻습니다 . 그런 다음 평소와 같이 나머지 방정식을 옮깁니다.
X f ( X ) X

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

위의 논의는 가정의 본질을 이해 하는 데 도움이되어야 한다. 질문은 또한 그것을 평가 하는 방법에 대해 묻습니다 . 기본적으로 두 가지 접근 방식이 있습니다 : 공식적인 가설 검정과 도표 작성. 이분산성 테스트는 실험적인 데이터 (즉, 고정 된 값에서만 발생 ) 또는 분산 분석이있는 경우 사용할 수 있습니다. 여기에서 그러한 테스트에 대해 논의합니다. Levene이 F- 비가 아닌 분산의 동등성을 테스트하는 이유X. 그러나 나는 음모를 보는 것이 가장 좋다고 생각하는 경향이 있습니다. @Penquin_Knight는 적합치에 대해 동질성 (homoscedasticity)이 얻어지는 모델의 잔차를 플로팅하여 일정한 분산이 어떻게 보이는지 잘 보여줍니다. 이분산성은 원시 데이터의 플롯 또는 스케일 위치 (확산 레벨이라고도 함) 플롯에서 감지 될 수 있습니다. R은 편리하게 호출 할 수 있습니다 plot.lm(model, which=2). 적합치 에 대한 잔차의 절대 값의 제곱근이며, 최저 곡선이 유용하게 중첩됩니다. lowess fit을 기울이지 않고 평평하게 만들고 싶습니다.

아래의 도표를 고려해보십시오.이 세 가지 다른 유형의 그림에서 동형 이성 데이터와 이성 이체 데이터가 어떻게 보이는지 비교합니다. 상위 2 개의이 분산 그림에 대한 깔때기 모양과 마지막 것에서 위쪽으로 기울어 진 lowess 선에 주목하십시오.

여기에 이미지 설명을 입력하십시오

완전성을 위해 다음은 이러한 데이터를 생성하는 데 사용한 코드입니다.

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

1
매우 도움이됩니다. 왜 평신도 언어로이 가정이 필요한지 설명 할 수 있습니까
Mukul

5
천만에요, @ 무쿨 OLS 추정기 (즉, 기본 절차 소프트웨어가 베타를 추정하기 위해 사용)를 추정하기 위해서는 균일 성 (일정 분산)의 가정이 필요합니다. 실제 값을 중심으로 한 샘플링 분포. IE의 경우 OLS 추정기가 최소 분산 편향 추정기가 되어야합니다 .
gung-Monica Monica 복원

5
반응 변수가 binary 인 경우 이항으로 분포됩니다. IE, 위에서 설명한 선형 회귀 모델의 많은 부분이 부적절합니다. 이 문제 중 하나는 이항의 분산이 평균의 함수 (평균 : , 분산 : 이므로 동종 성 가정이 위반된다는 것입니다. 이러한 것들을 더 잘 이해하려면 여기에서 내 대답을 읽는 것이 도움이 될 수 있습니다. 로짓과 프로 빗 모델 의 차이는 다른 컨텍스트로 작성되었지만. ( p ( 1 - p ) ) / n )p(p(1p))/n)
gung-복원 Monica Monica

2
귀하의 의견에 @ gung 당신은 문구 최소 분산 편견 추정기의 모든 단어에 기울임 꼴을 넣습니다. 나는 이분산성 (hesserdasticity)에 의해 추정기가 덜 효율적이되고 (더 많은 분산), 편향 될 것이라는 것을 이해한다.
user1205901

5
@ user1205901, 그것은 편견 남아 있습니다.
gung-모니 티 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.