가정이 충족되지 않을 때 회귀 모형이 얼마나 잘못 되었습니까?


28

회귀 모델을 피팅 할 때 출력의 가정이 충족되지 않으면 어떻게됩니까?

  1. 잔차가 동형이 아닌 경우 어떻게됩니까? 잔차가 잔차 대 적합 그림에서 증가하거나 감소하는 패턴을 나타내는 경우
  2. 잔차가 정규 분포를 따르지 않고 Shapiro-Wilk 테스트에 실패하면 어떻게됩니까? 정규성 Shapiro-Wilk 검정은 매우 엄격한 검정이며, 경우에 따라 정상 -QQ 플롯이 다소 합리적으로 보일지라도 데이터가 검정에 실패합니다.
  3. 하나 이상의 예측 변수가 정규 분포를 따르지 않거나 Normal-QQ 플롯에서 올바르게 보이지 않거나 데이터가 Shapiro-Wilk 테스트에 실패하면 어떻게됩니까?

나는 단단한 흑백 구분이 없으며 0.94가 옳고 0.95가 잘못되었다는 것을 알고 있습니다. 질문에서 나는 알고 싶습니다.

  1. 정규성에 실패하는 것은 R- 제곱 값에 따라 적합한 모형을 의미합니다. 신뢰성이 떨어지거나 완전히 쓸모 없습니까?
  2. 편차는 어느 정도까지 수용 가능합니까, 아니면 전혀 수용 가능합니까?
  3. 정규성 기준을 충족하기 위해 데이터에 변환을 적용 할 때 데이터가 더 정상이거나 (Shapiro-Wilk 테스트에서 P 값이 높거나, 정상적인 QQ 플롯에서 더 잘 보임), 쓸모가없는 경우 (모두 동일하거나 데이터가 정규성 테스트를 통과 할 때까지 원본에 비해 불량합니까?

제목에 대한 대답은 "예"라고 생각합니다.
Thomas Cleberg

@ThomasCleberg 재미있는 답변. 사람들이 "당신은 어때요?" :)
JohnK

아뇨,하지만 제가 살아 있는지 묻습니다. :)
Thomas Cleberg

"회귀 모델을 무엇에 사용 하시겠습니까?"
Floris

답변:


32

잔차가 동형이 아닌 경우 어떻게됩니까? 잔차가 잔차 대 적합 그림에서 증가하거나 감소하는 패턴을 나타내는 경우

오차항이 균질하지 않은 경우 (잔류 값을 관찰 할 수없는 오차항의 프록시로 사용) OLS 추정기는 여전히 일관되고 편향되지 않지만 선형 추정기 클래스에서 더 이상 가장 효율적이지 않습니다. 이 속성을 즐기는 것은 GLS 추정기입니다.

잔차가 정규 분포를 따르지 않고 Shapiro-Wilk 테스트에 실패하면 어떻게됩니까? 정규성 Shapiro-Wilk 검정은 매우 엄격한 검정이며, 경우에 따라 정상 -QQ 플롯이 다소 합리적으로 보일지라도 데이터가 검정에 실패합니다.

Gauss-Markov 정리에는 정규성이 필요하지 않습니다. OLS 추정기는 여전히 청색이지만 정규성이 없으면 최소한 유한 표본 크기에 대한 가설 검정 및 신뢰 구간을 수행하는 데 어려움이 있습니다. 그러나 여전히 부트 스트랩이 있습니다.

OLS 추정기는 온화한 규칙적 조건 하에서 정규 분포를 제한하기 때문에 무증상으로는 문제가되지 않습니다.

하나 이상의 예측 변수가 정규 분포를 따르지 않거나 Normal-QQ 플롯에서 올바르게 보이지 않거나 데이터가 Shapiro-Wilk 테스트에 실패하면 어떻게됩니까?

내가 아는 한 예측 변수는 고정 된 것으로 간주되거나 회귀는 조건부입니다. 이것은 비정규 효과를 제한합니다.

정규성에 실패하는 것은 R- 제곱 값에 따라 적합한 모형을 의미합니다. 신뢰성이 떨어지거나 완전히 쓸모 없습니까?

R- 제곱은 모형에 의해 설명 된 분산의 비율입니다. 정규성 가정이 필요하지 않으며 관계없이 적합도의 척도입니다. 그래도 부분 F- 검정에 사용하려면 다른 이야기입니다.

편차는 어느 정도까지 수용 가능합니까, 아니면 전혀 수용 가능합니까?

정상에서 벗어난 것이죠? 내가 말했듯이, 정규성이 없으면 추론이 어려워 지지만 불가능하지 않기 때문에 실제로 당신의 목적에 달려 있습니다 (부트 스트랩!).

정규성 기준을 충족하기 위해 데이터에 변환을 적용 할 때 데이터가 더 정상이거나 (Shapiro-Wilk 테스트에서 P 값이 높을수록, 정상 QQ 플롯에서 더 잘 보임), 쓸모가없는 경우 (모두 동일하거나 데이터가 정규성 테스트를 통과 할 때까지 원본에 비해 불량합니까?

요컨대, 모든 Gauss-Markov 가정 정규성을 더한 경우 OLS 추정기는 Best Unbiased (BUE), 즉 모든 등급의 추정기 에서 가장 효율적 입니다 . Cramer-Rao Lower Bound가 달성됩니다. 이것은 물론 바람직하지만 그것이 일어나지 않으면 세상의 끝이 아닙니다. 위의 설명이 적용됩니다.

변형과 관련하여 반응의 분포가 정규성에 가까워 질 수 있지만 나중에 해석이 간단하지 않을 수 있습니다.

이것들은 당신의 질문에 대한 짧은 대답입니다. 비정규 성의 의미에 특히 관심이있는 것 같습니다. 전반적으로, 나는 사람들이 생각한 것만 큼 치명적이지 않으며 해결책이 있다고 말하고 싶습니다. 제가 포함시킨 두 가지 참고 문헌은 더 읽기위한 좋은 출발점이며, 첫 번째는 이론적 인 특성입니다.

참고 문헌 :

후미오 하야시. : "경제학.", Princeton University Press, 2000

Kutner, Michael H. 등 "응용 된 선형 통계 모델.", McGraw-Hill Irwin, 2005.


Gauss-Markov 가정과 정규성에 OLS가 모든 추정기 ( 선형이 아닌) 중에서 가장 효율적이라는 점을 언급 하면서, 가 Y_rt 인 의 조건부 평균 이 선형 이라는 사실을 강조합니다 . 매개 변수 . 기본 모델이 선형이라고 가정하면 선형 추정기 (OLS)가 다른 모든 추정기 (선형이든 아니든)를 능가하는 것으로 놀라운 것은 아닙니다. YXiβi
DeltaIV

2
@DeltaIV 난 당신이 우리가 선형 추정량에 대해 이야기하고 있기 때문에 혼동 생각 응답에 대하여 , . y
JohnK

사실 두 가지 요점은 사실입니다. GM의 가설 중 하나는 이상적인 모델은 선형 것을 참으로 : 참조 en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem을 동시에, 당신이 무슨 말을 사실 : OLS가있다 추정의 ,하지의 . 따라서 선형이라고하면 iid 임의 변수 에서 선형이라는 것을 의미합니다 . βiβiYY1,,Yn
DeltaIV

@DeltaIV "이상적인 모델"은 무엇을 의미합니까? 매개 변수에서 선형 인 실제 모델입니다. 그러나 추정기로 응답의 선형 함수만을 고려할 때 우리를 제한하지 않습니다. GM은 우리가 반응의 선형 함수에 대한주의를 제한하면 몇 가지 추가 가정 하에서 OLS가 BLUE라고 말합니다. 이제, 우리가 정규성을 가정한다면, 당신이 고려하고있는 응답의 기능이 무엇이든 , 추정자가 편향되지 않았다면 OLS보다 더 잘 할 수 없습니다.
JohnK

이상적인 모델 = 실제 모델. 물론 의 비선형 함수를 고려 하여 를 추정 할 수 있습니다. 나는 두 번째 의견에서 우리가 동의한다고 생각했다. Yiβi
DeltaIV
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.