OLS 잔차가 정규 분포를 따르지 않은 경우의 회귀


43

이 사이트 에는 OLS 잔차가 점진적 으로 정규 분포 되어 있는지 확인 하는 방법 에 대해 설명 하는 여러 스레드가 있습니다 . R 코드로 잔차의 정규성을 평가하는 또 다른 방법이이 훌륭한 답변에 제공됩니다 . 이것은 표준화 잔차와 관측 잔차의 실제적인 차이에 대한 또 다른 논의 입니다.

그러나이 예제 에서처럼 잔차가 확실히 정규 분포가 아니라고 가정 해 봅시다 . 여기에는 수천 개의 관측치가 있으며 정규 분포 잔차 가정을 분명히 거부해야합니다. 문제를 해결하는 한 가지 방법은 답변에 설명 된대로 강력한 형태의 추정기를 사용하는 것입니다. 그러나 나는 OLS에 국한되지 않으며 실제로 다른 glm 또는 비선형 방법론의 이점을 이해하고 싶습니다.

잔차의 OLS 정규성 가정을 위반하는 데이터를 모델링하는 가장 효율적인 방법은 무엇입니까? 또는 적어도 올바른 회귀 분석 방법론을 개발하기위한 첫 번째 단계는 무엇입니까?


5
정규성이 여러 목적에 본질적으로 무관 한 방법을 논의하는 여러 스레드도 있습니다 . 독립적 인 관측치가 있고 표본 크기가 적어도 중간 정도 인 경우 OLS 유추에 중요한 것은 모든 잔차가 동일한 분산을 갖는 것입니다. 정상이 아닙니다. 표준 오차의 견고 / 이분산성 일관성 / 샌드위치 / 허버-에커-화이트 추정치를 사용하는 경우 일정한 분산 요구 사항도 필요하지 않습니다.
손님

@guest 나는 그 스레드에서 정규성 테스트 효율성에 대해서만 읽고 있습니다. 회귀 분석에는 태그가 없습니다.
Robert Kubrick 2016 년

이것을 시도하십시오 . 외부 링크는 다음과 같습니다 . 예를 들어 Stock 및 Watson의 OLS 장, Econometrics 소개를 참조하십시오 . 맹세 컨데 나는이 물건들을 만들어 내지 않고있다!
손님

@guest 두 개의 링크는 잔차가 아닌 결과의 정규 분포를 처리합니다.
Robert Kubrick 2016 년

1
아닙니다. 저자들은 종종 "Y의 분포"를 "X에 대한 조건부 Y의 분포"의 약칭으로 언급합니다. 원래 질문으로 돌아가려면 작은 표본이나 대량의 꼬리가 많은 데이터가 없으면 강력한 표준 오류와 함께 OLS를 사용하는 것이 좋습니다. 이 경우 정규성은 문제가 아닙니다.
손님

답변:


53

보통 최소 제곱 추정은 비정규 오차에 직면해도 여전히 합리적인 추정값입니다. 특히, Gauss-Markov Theorem 은 일반적인 최소 제곱 추정값이 오류가있는 한 회귀 계수의 최고 선형 비 편향 추정량 (BLUE) ( 평균 제곱 오차 를 최소화하는 데 최적 인 '최상의' )이라고 설명합니다.

(1) 평균이 0이다

(2) 상관이 없다

(3) 분산이 일정하다

여기에는 정규 조건이 없습니다 (또는 오류가 IID 인 조건 ).

신뢰 구간 및 / 또는 값을 얻으려고 할 때 정규성 조건이 적용됩니다 . (우리가 논의 된 바와 같이, 예를 들면 - @MichaelChernick 당신은 오랫동안 정상에서 출발이 방법으로 처리 할 수있는만큼 오류가 아닌 일반적인 경우 강력한 추론을 사용할 수 있습니다 (BTW 일을) 언급으로 스레드) 후버 -estimator는 실제 오차 분포가 정규 분포와 긴 꼬리 분포 (예 : 모양) 사이의 혼합이지만 다른 정규 분포를 벗어나는 데 도움이되지 않을 때 강력한 추론을 제공 할 수 있습니다. Michael이 암시하는 한 가지 흥미로운 가능성 은 OLS 추정치에 대한 신뢰 구간을 얻기 위해 부트 스트랩 하고 이것이 Huber 기반 추론과 비교되는 방식을 보는 것입니다.MpM

편집 : 나는 종종 비제 한 오류를 처리하기 위해 중앙 제한 정리에 의존 할 수 있다고 들었습니다. 항상 사실이 아닙니다 (정리가 실패하는 반례에 대해서만 말하는 것이 아닙니다). 에서 실제 데이터 예를 들어 당신은 반드시 제공하기 위해 중심 극한 정리에 의존 할 수 없다, 당신은 오래 오류를 꼬리 한 상황에서 - 영업가 참조, 우리는 큰 샘플 크기를 가지고 있지만 긴 꼬리 오류 분포의 증거를 볼 수 있습니다 현실적인 유한 샘플 크기에 대한 대략적인 편향 추론. 예를 들어, 오차 가 자유 도로 분포를 따르는 경우 ( 명확하지는 않음)2.01t2.01 OP의 데이터에서 볼 수있는 오차보다 긴 꼬리), 계수 추정값은 무 정규 정규 분포이지만 다른 짧은 꼬리 분포보다 "차지"하는 데 훨씬 오래 걸립니다.

이하, I는에 조 시뮬레이션 보여 R그 때 여기서 의 샘플링 분포 표본 크기가 경우에도 은 여전히 ​​매우 긴 꼬리입니다 .ε I ~ t 2.01 β 1 N = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

여기에 이미지 설명을 입력하십시오


2
+1, 이것은 주제에 대한 훌륭한 개요입니다. 특히 편집에 감사드립니다. 특별한 것이 있습니까? 그것은 굉장히 구체적으로 보입니다. df=2.01
gung-Monica Monica 복원

2
@ gung, Thanks- 때 분포 랜덤 변수 의 분산이 존재하지 않으므로 선택 했기 때문에 중심 한계 정리가 적용되지 않습니다. t d f 2df=2.01tdf2
Macro

1
@guest, 이것은 긴 꼬리 오류가있을 때 CLT를 맹목적으로 신뢰할 수 없다는 것을 보여주기 위해 고안된 예입니다. 나는 이것이 많은 응용 프로그램에 대해 극단적이라고 동의하지만 예제 ( stats.stackexchange.com/questions/29636/… )에서 참조 된 OP는 데이터가 매우 긴 꼬리 오류 분포를 보여줍니다. 모양은 와 약간 다릅니다. 유통,하지만 분명히 아니다 긴 꼬리, 그리고 그것을 실제 데이터에서 결과를했다. 이것을 강조하기 위해 "편집"을 편집했습니다. t2.01
매크로

2
@ 매크로, CLT의 맹목적인 사용에 동의합니다. 그러나 광역 데이터 뿐만 아니라 신뢰 구간 및 값에 대한 정규 데이터를 요구하는 것은 상당한 과잉이며, 예를 들어 출력을 해석하기 어렵게 만드는 역 정규 변환을 권장합니다. 파업의 균형은 올바른 질문에 대한 대답과 대략 잘못된 질문에 대한 대답 사이의 균형입니다. 올바른 방법으로 인구 평균을 비교하면 OLS 사용이 올바른 방법입니다. p
손님

2
@guest, 나는 OLS에 대해 논쟁하지 않았습니다. 사실, 나는 대답의 큰 부분은 배포 가정에 관계없이 OLS가 합리적인 일이라고 생각합니다. 또한 엄격한 정규성이 추론을 수행해야한다고 주장하지 않았습니다. 내가 말하는 것은 긴 꼬리 오류가있을 때 정규 근사에 기반한 추론이 오도 될 수 있다는 것입니다 (이 방법이 어떻게 / 동의하지 않는지 확실하지 않습니다 당신이 말하는 것을 모두) 그리고 대안 (예 : 부트 스트랩)을 고려하는 것이 좋습니다. .
Macro

10

잔차의 모든 속성을보고 싶다고 생각합니다.

  1. 정규성
  2. 일정한 분산
  3. 공변량과 상관 관계가 있습니다.
  4. 위의 조합

이 값이 1에 불과하고 하나의 두꺼운 꼬리로 인한 두꺼운 꼬리 또는 왜곡으로 인해 강력한 회귀가 좋은 접근 방법이거나 정규성으로 변환 될 수 있습니다. 일정하지 않은 분산 인 경우 분산 안정화 변환을 시도하거나 분산 함수를 모델링하십시오. 공변량과 관련된 다른 형태의 모형을 제안하는 것이 단지 3이라면. 벡터 나 리드의 부트 스트랩 문제는 항상 옵션입니다.


1의 경우, 꼬리가 많은 잔차에 대한 정규성 변환에 대해 조금 자세히 설명 할 수 있습니까?
Robert Kubrick

2
작은 람다가있는 로그 변환 또는 Box-Cox는 꼬리를 축소합니다. 이는 헤비 테일 및 왜곡 된 분포에 효과적입니다. 매우 두꺼운 꼬리 분포에서 어떤 변환이 효과가 있을지 모르겠습니다.
Michael Chernick 2016 년

3
좋은 답변 마이클. 회귀 추정 및 일반적인 대비와 관련된 신뢰 구간에 대해보다 일상적으로 부트 스트랩을 사용하기 시작했으며이를 R rms패키지 에서 쉽게 수행 할 수있었습니다 . 그러나 제안한 바와 같이 분산 안정성을 개선하고 때로는 잔차의 정규성을 개선하는 변환을 찾는 것은 부트 스트랩하더라도 몇 가지 장점이 있습니다. "잘못된"변환을 사용하는 최소 제곱 추정은 매우 비효율적 일 수 있으며 예측에서 평균 절대 및 중간 절대 오차가 커질 수 있습니다. 또한 반모 수 회귀 모델을 사용하고 싶습니다.
Frank Harrell

2

내 경험은 Michael Chernick과 완전히 일치합니다. 때때로 데이터 변환을 적용하면 모델링 오류가 정상적으로 분포 될뿐만 아니라 이분산성을 수정할 수도 있습니다.

미안하지만, 제 생각에는이 과학 / 예술을 실천하는 것은 미친듯한 양의 데이터를 수집하거나 덜 효율적인 로버 스트 회귀 방법을 사용하는 것과 같이 제안하는 것은 잘못된 것입니다.


1

매크로 (위의 내용)가 정답을 말했습니다. 같은 질문이 있었기 때문에 약간의 정확성

잔차의 정규성 조건은 잔차가 균일 한 경우에도 유용합니다. 결과적으로 OLS는 모든 추정기 (선형 또는 비선형) 사이의 편차가 가장 작습니다 .

확장 된 OLS 가정 :

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,
  3. 큰 특이 치는 드물다
  4. 너는 동요하다
  5. u가 분포 됨N(0,σ2)

1-5가 검증되면 OLS는 모든 추정기 (선형 또는 비선형) 사이에서 가장 작은 분산을 갖습니다 .

Gauss-Markov가 1 ~ 4 개만 확인한 경우 OLS가 최고의 선형 (!) 추정기 (BLUE)입니다.

출처 : 주식 및 왓슨, 계량 경제학 + 내 코스 (EPFL, 계량 경제학)


정규성이 예를 들어 최대 우도 분석을위한 몇몇 바람직한 특성을 부여하지만, y 잔차에서 정규 최소 제곱에 대한 정규성은 요구되지 않는다. 후자는 종종 Akaike 정보 기준에 사용됩니다. 그러나 이것은 불필요하게 제한적이며 드물게 발생하며보다 공식적인 요구 사항은 정규성이 아닌 동성애에 대한 것입니다. 반면의 경우 y에서는 평범한 최소 제곱에 대한 사용이 거의 없기 때문에 운이 좋습니다.
Carl

@Carl : 엄격하게 말하면 OLS에는 1 또는 2도 필요하지 않습니다 (Regression을 실행하도록 Excel에 요청하고 질문을받지 않습니다) : 정규성은 추론을 합리적인 것으로 만드는 여러 속성 중 하나입니다 (예 : 예측, 신뢰) 간격, 테스트.
PatrickT

@PatrickT 무언가를 계산하는 능력은 의미를 부여하지 않습니다. 예를 들어, Cauchy 분산 값 오류 가있는 선에 대한 OLS 선형 회귀 는 CI의 기울기를 증가시키고 거의 모든 것을 인정하기 위해 가로 채기 때문에 원래 선 또는 기울기를 반환하지 않습니다. 이것을 Pyrrhic 계산이라고 부를 수 있습니다. y
Carl

우리도 같은 말을해야합니다. 아마도 첫 번째 의견의 문구가 나를 혼란스럽게했을 것입니다.
PatrickT

1

비정규 조건의 경우 , 특히 방법에 대한 링크를 사용하여 강력한 회귀에 의존하는 경우 가 있습니다 .

비정규성에 대한 맥락을 제시하기 위해 선형 OLS 회귀에 대한 가정을 검토하는 데 도움이 될 수 있습니다.

  • 외 생성이 약하다 . 이는 본질적으로 예측 변수 x 가 랜덤 변수가 아닌 고정 된 값으로 취급 될 수 있음을 의미 합니다. 예를 들어 예측 변수에는 오류가없는 것으로 가정합니다. 즉, 측정 오류로 오염되지 않습니다. 이 가정은 가장 자주 위반되는 것으로 가정되며이 가정 목록에 따라 오류가 발생합니다.
  • 선형성. 이는 반응 변수의 평균이 모수 (회귀 계수)와 예측 변수의 선형 조합임을 의미합니다. 이 가정은 처음에 보이는 것보다 훨씬 덜 제한적입니다. 예측 변수는 고정 된 값으로 처리되므로 (위 참조) 선형성은 실제로 매개 변수에 대한 제한 일뿐입니다. 예측 변수 자체는 임의로 변환 될 수 있으며, 실제로 동일한 기본 예측 변수의 여러 복사본이 추가 될 수 있으며, 각 복사본은 다르게 변환됩니다.
  • 일정한 분산 (일명 동성애). 이는 예측 변수의 값에 관계없이 반응 변수의 다른 값이 오차에서 동일한 분산을 갖음을 의미합니다. 실제로 응답 변수가 광범위하게 변할 수있는 경우이 가정은 유효하지 않습니다 (즉, 오류가 이분법적임). 이기종 오차 분산을 확인하기 위해 또는 잔차 패턴이 동질성 모형 가정을 위반하는 경우 ( x 는 모든 점의 '최적 합선'에서 오차가 동일), 잔차 오차와 예측값 사이의 "패닝 효과"를 찾는 것이 좋습니다. 이것은 예측 변수에 대해 플롯 할 때 절대 또는 제곱 잔차에 체계적인 변화가있을 것입니다. 회귀선에 오류가 고르게 분포되지 않습니다. 이분산성 (heteroscedasticity)은 점 주위의 구별 가능한 분산을 평균화하여 선의 모든 분산을 부정확하게 나타내는 단일 분산을 얻습니다. 실제로, 잔차는 선형 회귀선을 따라 점에 대한 더 크고 작은 값에 대한 예측 된 그림에서 군집되어 분산되어 나타나며 모형의 평균 제곱 오차가 잘못됩니다.
  • 오류의 독립성. 이것은 응답 변수의 오류가 서로 관련이 없다고 가정합니다. (실제 통계적 독립성은 단순한 상관 관계가없는 것보다 더 강력한 조건이며, 보유하고 있다고 알려진 경우 악용 될 수 있지만 종종 필요하지는 않습니다. 후자는 군집 분석 및 상호 작용에 대한 수정으로 검사 할 수 있습니다.) 일부 방법 (예 : 일반화) 최소 제곱)은 상관 오류를 처리 할 수 ​​있지만, 상관되지 않은 오류를 가정하여 모델을 편향시키는 데 일종의 정규화를 사용하지 않는 한 일반적으로 훨씬 더 많은 데이터가 필요합니다. 베이지안 선형 회귀는이 문제를 처리하는 일반적인 방법입니다.
  • 오차 항과 회귀 변수 간의 통계적 관계는 추정 절차가 편향되지 않고 일관성있는 것과 같은 바람직한 샘플링 특성을 갖는지 여부를 결정하는 데 중요한 역할을합니다.

  • 예측 변수 x의 배열 또는 확률 분포는 β 추정의 정밀도에 큰 영향을 미칩니다. 실험의 샘플링 및 설계는 β의 정확한 추정치를 달성하는 방식으로 데이터를 수집하기위한 지침을 제공하는 고도로 개발 된 통계의 하위 필드입니다.

이 같이 응답이 도시, 시뮬레이션 Student's- 분포 기울기와 절편 그 자유도로서 대형화 (위한 신뢰 구간과 OLS 회귀 라인 광고 리드에서 에러를 이동시킴으로써 행한다 ) 감소한다. 들면 , Student's- 코시 분포이며, 경사에 대한 신뢰 구간이되고 .tydfdf=1t(,+)

발생 오차가 Cauchy 분포 일 때, 데이터를 통한 스퓨리어스 라인으로부터의 OLS 잔차는 신뢰성이 떨어질 수 있다는 점에서 잔존물에 대해 Cauchy 분포를 호출하는 것은 자의적입니다. 이 경우 Theil-Sen 회귀 분석을 사용할 수 있습니다 . Theil-Sen은 비정규 잔차에 대해 OLS보다 확실히 강력합니다. 예를 들어, Cauchy 분산 오차는 신뢰 구간을 저하시키지 않으며 OLS와는 달리 이변 량 회귀와 달리 이변 량의 경우 여전히 편향됩니다. 통과 -Bablok 회귀 는 편향되지 않은 이변 량일 수 있지만 음의 회귀 기울기에 적용되지 않습니다. 방법 비교 연구에 가장 일반적으로 사용됩니다. 데밍 회귀를 언급해야한다여기서 Theil-Sen 및 Passing-Bablok 회귀와 달리 이항 문제에 대한 실제 솔루션이지만 다른 회귀의 견고성이 부족합니다. 보다 중심적인 값을 포함하도록 데이터를 잘라내어 견고성을 높일 수 있습니다. 예를 들어, 랜덤 샘플 합의 (RANSAC) 는 특이 치를 포함하는 관측 된 데이터 세트에서 수학적 모델의 매개 변수를 추정하는 반복적 방법입니다.

이변 량 회귀는 무엇입니까? 문제의 이변 량 특성에 대한 테스트 부족은 OLS 회귀 희석 의 가장 흔한 원인이며이 사이트의 다른 곳 에서 훌륭하게 제시되었습니다 . 이러한 맥락에서 OLS 바이어스의 개념은 잘 알려져 있지 않습니다. 예를 들어 Longford et al. (2001), 독자를 다른 방법으로 참조하여 회귀 모델을 확장하여 변수 의 변동성을 인정 하므로 바이어스가 발생하지 않습니다 . 즉, 와 모두있을 때 이변 량 대소 문자 회귀를 무시할 수없는 경우가 있습니다.x1 x y x y y 2 x y x y = f ( x )1xy값은 무작위로 분배됩니다. 이변 량 회귀의 필요성은 OLS 회귀선을 데이터의 OLS 회귀의 잔차에 맞추는 것으로 테스트 할 수 있습니다. 그런 다음 OLS 잔차가 0이 아닌 기울기를 갖는 경우 문제는 이변 량이며 데이터의 OLS 회귀는 너무 얕은 기울기 크기와 함수 관계를 나타내기에는 너무 큰 절편을 갖습니다. 간 및 . 이 경우 값의 최소 오차 선형 추정기는 실제로 여전히 OLS 회귀에서 비롯되며 R 값은 가능한 최대 값이되지만 OLS 회귀선은 실제 관련 함수를 나타내지 않습니다. 및xyy2xy 랜덤 변수. 반대의 예로서, 등거리 갖는 시계열에서 다른 문제들 사이에서 발생하는 것처럼 , 미가공 데이터의 OLS가 항상 부적절하지는 않지만 최고의 라인을 나타낼 수 있지만 여전히 변수 변환, 예를 들어 카운트 데이터의 경우, 포아송 분산 오차의 오류를보다 일반적인 조건으로 변환하기 위해 카운트의 제곱근을 취하고 0이 아닌 잔차 기울기를 여전히 점검해야합니다. xy=f(x)

  1. NT, 롱 포드 (2001). "통신". 왕립 통계 학회지, 시리즈 A. 164 : 565. doi : 10.1111 / 1467-985x.00219
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.