선형 회귀 분석에서 오차 항에 일정하지 않은 분산이있는 결과는 무엇입니까?


9

선형 회귀 분석의 가정 중 하나는 오차 항에 일정한 분산이 있어야하며 모형과 관련된 신뢰 구간 및 가설 검정이이 가정에 의존한다는 것입니다. 오차항에 일정 분산이없는 경우 정확히 어떻게됩니까?

답변:


15

이 분산의 결과는 다음과 같습니다.

  1. 평소 최소 제곱 (OLS) 추정기 b^=(XX)Xy여전히 일관 되지만 더 이상 효율적 이지 않습니다 .

  2. 견적 Var^(b)=(XX)1σ^2 어디 σ^2=1nkee더 이상 추정기의 공분산 행렬에 대한 일관된 추정기 가 아닙니다 .b^. 편향되거나 일관성이 없을 수 있습니다. 실제로 실제로 분산을 과소 평가할 수 있습니다.

포인트 (1)은 큰 문제가 아닐 수 있습니다. 어쨌든 사람들은 종종 일반적인 OLS 추정기를 사용합니다. 그러나 포인트 (2)를 해결해야합니다. 무엇을해야합니까?

이분산성 일관성이있는 표준 오류 가 필요 합니다 . 표준 접근법은 대규모 표본 가정, 점근 적 결과에 의존하고 분산을 추정하는 것입니다.b 사용하여 :

Var^(b)=1n(XXn)1S(XXn)1
어디 S 로 추정된다 S=1nki(xiei)(xiei).

이것은 이분산성에 일관된 표준 오류를 제공합니다. 또한 Huber-White 표준 오류, 강력한 표준 오류, "샌드위치"추정기 등으로도 알려져 있습니다. 모든 기본 표준 통계 패키지에는 강력한 표준 오류 옵션이 있습니다. 사용해!

추가 의견 (업데이트)

이분산성이 충분히 크면 규칙적인 OLS 추정치에 큰 실제 문제가있을 수 있습니다. 여전히 일관된 추정값이지만 전체 추정값이 몇 가지 높은 분산 관측치에 의해 유발되는 작은 표본 문제가있을 수 있습니다. (이것은 의견에서 @ seanv507이 암시하는 것입니다). OLS 추정기는 최적보다 높은 분산 관측치에 더 많은 가중치를 부여한다는 점에서 비효율적입니다. 추정치는 잡음이 심할 수 있습니다.

비 효율성을 수정하려는 문제는 아마도 오류 항에 대한 공분산 행렬을 알지 못하기 때문에 GLS 와 같은 것을 사용 하면 오류 항 공분산 행렬의 추정치가 가비지 인 경우 상황이 더욱 악화 될 수 있다는 것입니다.

또한 위에서 언급 한 Huber-White 표준 오류는 작은 샘플에서 큰 문제가있을 수 있습니다. 이 주제에 대한 긴 문헌이 있습니다. 예 : Imbens and Kolesar (2016), "작은 샘플의 강력한 표준 오류 : 실제적인 조언"을 참조하십시오.

추가 연구 방향 :

이것이 스스로 연구하는 경우 고려해야 할 실질적인 다음은 클러스터 된 표준 오류입니다. 클러스터 내에서 임의의 상관 관계를 수정합니다.


1
매튜-더 실용적인 문제는 요점을 명확하게 해줄 것이라고 생각합니다 (1). 예를 들어, 추정값이 분산이 높은 지역에 대해 '편향'되지 않습니까? -그 지역이 높은 레버리지를 유발하는 평균과 거리가 멀다면 더 큰 문제가 될 것입니다.
seanv507

3
@ seanv507이 분산은 OLS 추정을 바이어스하지 않습니다. 당신이 말하는 것은 비 효율성입니다. 고 분산 관측치와 저 분산 관측치에 동일한 가중치를 부여함으로써 OLS 추정기는 이론적으로 역 분산 가중치 와 같은 것으로 달성 할 수있는 것보다 높은 분산을 갖습니다 . 추정치 사용 여부σi2 추정 단계에서 (즉, 추정을 위해) b) 당신이 얼마나 믿는지에 달려 있습니다 σi2.
Matthew Gunn

1
매튜, 나는 편견을 도입하지 않았다는 것을 안다 (나는 따옴표로 용어를 사용하는 것에 대해 [당신과 OP에게 사과한다 :) 나는 적절한 용어를 생각할 수 없었다). 그러나 나는 시점 (1)이 중요한 문제가 아닌 시점과 이유에 대한 실질적인 의미를 도출하려고 노력하고 있으며 (OP가 그것을 이해하기를 원한다는 제안). 당신은 그 효과가 다음이라는 것에 동의하지 않습니까?b(직관적 인 직선 맞춤은 각 지역의 가중치가 동일하지만 실제로 OLS는 변동이 큰 지역에 더 집중할 수 있다는 것입니다.)
seanv507

@ seanv507 자유롭게 답변을 추가하십시오!
Matthew Gunn

이 분산 강건성 표준 오차를 사용하는 대신 (2010 년 논문 "무증상으로가는 길에 탄탈 루스" 에서 Ed LeamerWhite-washing이라고 함 ) 이분산성에 대한 점 추정값 (분산 추정값과 함께)을 수정하려고 할 수도 있습니다. WLS. 이것은 귀하의 답변에 언급 할 가치가 있습니다.
Richard Hardy

3

짧은 대답은 기본적으로 모델이 잘못되었다는 것입니다.

  • 통상 최소 제곱이 되려면 B의 추정 된 L inear U가 nbiased E를 stimator 오차항의 일정한 분산을 가정한다.
  • Gauss-Markov 가정은 (만족 될 경우) 계수에 대한 최소 제곱 추정기를 보장합니다. β 바이어스되지 않은 모든 바이어스 추정기 사이에 최소 편차가 있습니다.

따라서 분산 공분산 행렬을 추정하는 데 이분산성 문제가 발생하면 계수의 잘못된 표준 오류가 발생하여 잘못된 t- 통계량 및 p- 값이 발생합니다. 간단히 말해서, 오차항에 일정한 분산이 없으면 보통 최소 제곱은 추정에 가장 효율적인 방법이 아닙니다. 관련 질문을 살펴보십시오 .


0

"이분산성"은 예측 오차의 실제 표준 편차를 추정하는 것을 어렵게합니다. 이로 인해 신뢰 구간이 너무 넓거나 좁아 질 수 있습니다 (특히 오류의 분산이 시간이 지남에 따라 증가하는 경우 표본 외 예측에 대해서는 너무 좁아집니다).

또한 회귀 모델은 데이터의 하위 집합에 너무 집중할 수 있습니다.

좋은 참조 : 선형 회귀 테스트 가정

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.