선형 회귀에 대한 동성애 가정을 위반하면 어떤 위험이 있습니까?


28

예를 들어 ChickWeightR의 데이터 세트를 고려하십시오 . 분산은 시간이 지남에 따라 분명히 커지므로 다음과 같은 간단한 선형 회귀를 사용하면 다음과 같습니다.

m <- lm(weight ~ Time*Diet, data=ChickWeight)

내 질문 :

  1. 모델의 어떤 측면에 의문이 생길까요?
  2. 문제가 Time범위를 벗어나는 것으로 제한 됩니까?
  3. 이 가정의 위반에 대한 선형 회귀는 얼마나 관대합니까 (즉,이 분산이 문제를 야기해야 하는가)?

1
답변에 언급 된 것 외에도 예측 간격에도 올바른 적용 범위가 없습니다.
Glen_b-복지국 모니카

답변:


22

이 경우 선형 모형 (또는 "일반 최소 제곱")은 여전히 ​​편차가 없습니다.

오차항의 이분산성에 직면하더라도 여전히 편향된 모수 추정값이 있지만 공분산 행렬이 느슨해집니다. 추론 (예 : 모수 검정)이 해제되었을 수 있습니다. 일반적인 수정은 공분산 행렬 일명 표준 오류를 계산하는 강력한 방법을 사용하는 것입니다. 어느 것을 사용하는지는 다소 도메인에 따라 다르지만 White의 방법은 시작입니다.

그리고 완전성을 위해, 오차항의 직렬 상관은 편향된 모수 추정치로 이어 지므로 더 나빠집니다.


표준 오차에 대한 강력한 추정 (화이트 방법과 같은)은 모수에 대한 검정 / 신뢰 구간에 도움이되지만 예측 구간에는 도움이되지 않습니까?
kjetil b halvorsen

모수 벡터의 공분산은 예측 계산에 사용되므로 예측 간격도 일반적으로 바이어스됩니다.
Mustafa S Eisa

옳은. 편견이 없으면 보류가 해제 될 수 있습니다. 다른 두 개의 파라는 맞습니다.
Dirk Eddelbuettel

1
그것을 포착하고 명시 적으로 (고요하거나 "구동"하지 않고) 공감 해 주셔서 감사합니다. 나는 용어를 사용하는 데있어서 약간 어리 석었다. 더 나은 지금.
Dirk Eddelbuettel

23

Homoscedasticity는 OLS가 최고의 선형 비 편향 추정기 (BLUE)가되기 위해 필요한 Gauss Markov 가정 중 하나입니다.

Gauss-Markov 정리는 우리가 모든 Gauss-Markov 가정을 충족 시킨다는 가정하에 계수 대한 최소 제곱 추정값 이 바이어스되지 않고 모든 바이어스되지 않은 선형 추정기 사이에 최소 편차를 가짐을 알려줍니다 . 가우스-마코프 정리에 대한 자세한 정보는 여기 에서 정리의 수학적 증거를 포함합니다 . 또한 여기를 위반 한 경우 발생하는 설명을 포함하여 OLS 가정의 전체 목록을 찾을 수 있습니다 .β

위의 웹 사이트의 정보를 간단히 요약하면 이분산성은 계수 추정치에 편향을 유발하지 않습니다. 그러나 이분산성이 주어지면 분산 공분산 행렬을 제대로 추정 할 수 없습니다. 따라서 계수의 표준 오차가 잘못되었습니다. 이것은 어떤 t- 통계량 및 p- 값도 계산할 수 없으며 따라서 가설 검정은 불가능하다는 것을 의미합니다. 전반적으로 이분산성 하에서 OLS는 효율성을 잃고 더 이상 BLUE가 아닙니다.

그러나 이분산성은 세상의 끝이 아닙니다. 다행히 이분산성을 수정하는 것은 어렵지 않습니다. 샌드위치 추정기를 사용하면 계수에 대한 일관된 표준 오차를 추정 할 수 있습니다. 그럼에도 불구하고 샌드위치 추정기를 통해 표준 오류를 계산하는 데는 비용이 듭니다. 추정기는 매우 효율적이지 않으며 표준 오차가 매우 클 수 있습니다. 일부 효율성을 회복하는 한 가지 방법은 가능한 경우 표준 오류를 클러스터링하는 것입니다.

위에서 언급 한 웹 사이트에서이 주제에 대한 자세한 정보를 찾을 수 있습니다.


12

동종 성 부재는 매개 변수의 신뢰할 수없는 표준 오차 추정치를 제공 할 수 있습니다. 모수 추정치는 편향되지 않습니다. 그러나 추정치는 효율적이지 않을 수 있습니다 (BLUE 아님). 다음 링크 에서 더 많은 것을 찾을 수 있습니다


12

편견없는 추정값이 있다고해서 모델이 "올바르다"는 것은 아닙니다. 많은 상황에서 회귀 계수 추정에 대한 최소 제곱 기준은 (1) 올바른 의미가없는 회귀 계수 또는 (2) 큰 오차를 최소화하기 위해 기울어 지지만 많은 작은 오류가 발생하여 예를 들어 일부 분석가는 변환해도 모형이 잘 맞아도 추정값이 편향되지 않기 때문에 OLS를 사용하여 를 예측하는 것이 유효하다고 생각합니다 . 이것은 제곱 오류의 합계를 최소화하지만 에서 효과를 분할합니다.log(Y)Yβ부정확하고 비경쟁적인 절대 오차 합계를 초래합니다. 분산 신호 불일치가 부족한 경우에는보다 근본적인 모델링 문제가 발생합니다.

경쟁 모델을 볼 때 (예 : 대 대 서수 회귀 분석) 피팅 프로세스에 의해 정의에 의해 최적화되지 않은 측정 값을 사용하여 예측 정확도를 비교하고 싶습니다.Ylog(Y)


1

다른 답변, 특히 첫 번째 질문에 대한 좋은 정보가 있습니다. 마지막 두 질문에 대한 무료 정보를 추가 할 것이라고 생각했습니다.

  1. 이분산성과 관련된 문제는 외삽에 국한되지 않는다. 여기에는 주로 신뢰 구간, p- 값 및 예측 한계가 포함되므로 데이터 범위 전체에 적용됩니다.
  2. 엄밀히 말하면, 이분산성과 관련된 문제는 아주 작은 양의이 분산에도 존재합니다. 그러나 이분산성이 거의없는 것으로 의심되는 것처럼 문제도 매우 작습니다. 이분산성이 너무 커지는 진정한 '밝은 선'은 없지만 가장 큰 분산이 가장 작은 분산 때 선형 모델은 이분산성에 의해 영향을받지 않는다는 것이 일반적입니다 . 4×
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.