선형 모형의 가정 및 잔차가 정규 분포가 아닌 경우 수행 할 작업


22

선형 회귀의 가정이 무엇인지 조금 혼란 스럽습니다.

지금까지 나는 여부를 확인했다.

  • 모든 설명 변수는 응답 변수와 선형으로 상관됩니다. (이 경우였다)
  • 설명 변수 사이에 공선 성이있었습니다. (공동성이 거의 없었습니다).
  • 내 모델의 데이터 포인트의 Cook 거리가 1 미만입니다 (이 경우 모든 거리가 0.4 미만이므로 영향 지점이 없음).
  • 잔차는 정규 분포입니다. (이것이 아닐 수도 있습니다)

그러나 나는 다음을 읽습니다.

정규성 위반은 종종 (a) 종속 변수 및 / 또는 독립 변수의 분포가 그 자체로 상당히 비정규 적이거나, 또는 (b) 선형성 가정이 위반되기 때문에 발생합니다.

질문 1 이것은 독립 변수와 종속 변수가 정상적으로 분포되어야하는 것처럼 들리지만 이것이 아는 한은 아닙니다. 내 종속 변수와 독립 변수 중 하나가 정상적으로 분포되지 않습니다. 그들이해야합니까?

질문 2 잔차의 QQnormal 플롯은 다음과 같습니다.

잔차의 정규성 검사

이는 정규 분포와 약간 다르며 shapiro.test잔차가 정규 분포에서 나온 귀무 가설을 기각합니다.

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

잔차 대 적합치 값은 다음과 같습니다.

잔차 대 적합

잔차가 정규 분포가 아닌 경우 어떻게해야합니까? 선형 모델이 완전히 쓸모가 없다는 것을 의미합니까?


3
잔차 대 적합치 그림은 종속 변수에 하한이 있음을 나타냅니다. 이 패턴을 볼 수 있습니다. 이것은 당신이 고려할 수있는 대체 모델에 대한 표시를 줄 수 있습니다.
Maarten Buis 2014 년

답변:


25

우선, 나는 고전적이고 접근하기 쉬운 기사의 사본을 가져 와서 읽습니다 .Anscombe FJ. (1973) 통계 분석 그래프 American Statistician . 27 : 17 ~ 21.

당신의 질문에 :

답 1 : 종속 변수 나 독립 변수를 정규 분포로 나눌 필요는 없습니다. 사실 그들은 모든 종류의 반복 분포를 가질 수 있습니다. 정규성 가정 에러의 분포에 적용 ( YiY^i ).

답 2 : 실제로 평범한 최소 제곱 (OLS) 회귀에 대한 두 가지 개별 가정에 대해 묻는 것입니다.

  1. 하나는 선형성가정이다 . 이것은 YX 사이의 관계 가 직선으로 표시됨을 의미합니다 (오른쪽? 대수학으로 다시 직선 : y=a+bx , 여기서 ay 절편이고 b 는 선의 기울기입니다). 이 가정의 관계는 단순히 관계가 직선으로 잘 설명되어 있지 않음을 의미합니다 (예 : YX 의 정현파 함수입니다)X, 또는 이차 함수 또는 특정 지점에서 기울기를 변경하는 직선까지도 가능합니다. 비선형 성을 해결하기 위해 내가 선호하는 2 단계 접근 방식은 (1) YX 간의 특정 비선형 기능 관계를 제안하기 위해 (예 : LOWESS 또는 GAM 등을 사용하여 ) 일종의 비모수 적 평활 회귀를 수행하는 것입니다 . (2) X 비선형 성을 포함하는 다중 회귀 (예 : YX+X2 ) 또는 X 매개 변수의 비선형 성을 포함 하는 비선형 최소 제곱 회귀 모델 (예 : Y ~ X )을 사용하여 기능적 관계를 지정YX+max(Xθ,0) ,θ 의 회귀선 점 나타내는Y 에서X ) 경사를 변경.

  2. 다른 하나는 정규 분포 잔차를 가정 한 것입니다. 때로는 OLS 컨텍스트에서 비정규 잔차를 효과적으로 벗어날 수 있습니다. 예를 들어, Lumley T, Emerson S. (2002) 대규모 공중 보건 데이터 세트에서 정규 가정의 중요성을 참조하십시오 . 공중 보건의 연례 검토 . 23 : 151 ~ 69. 때때로, 우리는 (또 Anscombe 기사 참조) 할 수 없습니다.

y


2
감사! 일부 통계 과정 슬라이드에서는 가정이 실패하면 Y를 변환하거나 설명 변수를 변환 할 수 있다고 말합니다. 예를 들어 lm (Y ^ 0.3 ~ + X1 + X2 + ...)를 수행하여 Y를 변환하면 잔차가 정상적으로 분포됩니다. 이것이 유효한 일입니까?
Stefan

@ 스테판 예! 응답을 변환하는 것이 종종 좋은 일 log이며 간단한 전력 변환이 일반적입니다.
Gregor

Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX

@Alexis : 왜이 ​​페이지들은 변수가 정규 분포되어야한다고 말합니까? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…
stackoverflowuser2010

7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY

11

첫 번째 문제는

  • 보증에도 불구하고 잔차 그림은 조건부 예상 응답이 적합치에서 선형이 아님을 보여줍니다. 평균에 대한 모형이 잘못되었습니다.

  • 일정한 분산이 없습니다. 분산 모델이 잘못되었습니다.

당신은 거기에서 그 문제에 대한 정상 성을 평가할 수 없습니다 .


플롯을보고 선형성에 대해 어떻게 결론을 내 렸는지 자세히 설명해주세요. 동종 동 론성 가정이 여기에서 충족되지 않는다는 것을 이해합니다.
Nisha Arora 박사

y^y^=30060<00303060>60)의 직선을 가장 잘 구합니다. 내가 좋아하는 뭔가를주고, 자신의 라인을 결합 그래서 나를 위해 중간 두 사람은 거의 일치하고
Glen_b -Reinstate 모니카

중반에는 거의 모든 잔차가 음수이고, 바깥 부분에서는 거의 모든 잔차가 양수입니다. 랜덤 잔차가 어떻게 보이는지는 아닙니다.
Glen_b-복지국 Monica

감사합니다, @Glen_b. 오랜 시간이 지난 후, 나는 내 개념을 다시보고있어 처음에는 시각화 할 수 없었다.
Nisha Arora 박사

여기서 진행할 내용은 많지 않지만 원본 데이터는 음수가 아니며 일반화 된 선형 모델 (아마도 로그 링크가있는 감마) 또는 변환 (예 : 로그 변환)이 더 적합한 선택이 될 것입니다 .
Glen_b-복지국 모니카

3

나는 선형 모델이 완전히 쓸모 없다고 말하지 않을 것입니다. 그러나 이는 모델이 데이터를 올바르게 / 완전히 설명하지 않음을 의미합니다. 모델이 "충분한 지"여부를 결정해야하는 부분이 있습니다.

첫 번째 질문에 대해 선형 회귀 모델은 종속 변수와 독립 변수가 정상이어야한다고 가정하지 않습니다. 그러나 잔차의 정규성에 대한 가정이 있습니다.

두 번째 질문에는 고려해야 할 두 가지가 있습니다.

  1. 다른 종류의 모델을 확인하십시오. 다른 모델 (예 : 비선형 회귀 등)을 설명하는 것이 좋습니다. 여전히이 "새 모델"의 가정이 위반되지 않았는지 확인해야합니다.
  2. 데이터에 반응 (결과)을 설명하기에 충분한 공변량 (종속 변수)이 포함되어 있지 않을 수 있습니다. 이 경우 다른 작업을 수행 할 수 없습니다. 경우에 따라 잔차가 다른 분포 (예 : t- 분포)를 따르는 지 확인하는 경우도 있지만 그렇지 않은 것 같습니다.

귀하의 질문 외에도 귀하의 QQPlot이 "정규화되지 않은"것으로 나타났습니다. 일반적으로 잔차가 표준화 될 때 줄거리를 보는 것이 더 쉽습니다 ( stdres 참조) .

stdres(lmobject)

나는 그것이 당신에게 도움이되기를 바랍니다. 아마도 다른 사람이 저보다 이것을 더 잘 설명 할 것입니다.


0

이전 답변 외에도 모델을 개선하기 위해 몇 가지 사항을 추가하고 싶습니다.

  1. 때로는 잔차의 비정규 성이 특이 치의 존재를 나타냅니다. 이 경우 특이 치를 먼저 처리하십시오.

  2. 일부 변환을 사용하면 목적이 해결 될 수 있습니다.

  3. 또한 다중 공선 성을 처리 하려면 https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution을 참조 하십시오.


-1

두 번째 질문으로

실제로 나에게 일어난 일은 많은 독립 변수로 내 반응을 과도하게 맞추고 있다는 것입니다. 과적 합 된 모델에서는 정규 잔차가 아닙니다. 그럼에도 불구하고 결과는 일부 보조가 0 (p- 값이 0.2보다 강함)이라는 가능성을 알려주기위한 충분한 증거가 없다는 결론을 내렸다. 따라서 두 번째 모델에서는 뒤로 선택 절차에 따라 변수를 해제하여 qqplot을 사용하여 그래픽으로 검증하고 Shapiro-Wilk 테스트를 통한 hypotesis 테스트를 통해 정규 잔차를 얻었습니다. 이것이 귀하의 경우인지 확인하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.