선형 회귀에 대한 일반적인 가정의 전체 목록은 무엇입니까?


72

선형 회귀에 대한 일반적인 가정은 무엇입니까?

그들은 다음을 포함합니까?

  1. 독립 변수와 종속 변수 사이의 선형 관계
  2. 독립적 인 오류
  3. 정규 분포 오차
  4. 동질성

다른 사람이 있습니까?


3
윌리엄 베리의 작은 책에서 "회귀 가정 이해하기"에 관한 다소 완전한 목록을 찾을 수 있습니다. books.google.com/books/about/…

3
응답자가 좋은 자료를 몇 가지 열거했지만이 형식으로 답변하기 어려운 질문이며 (많은) 책이이 주제에만 집중되어 있습니다. 요리 책이없고 선형 회귀가 포함 할 수있는 다양한 상황이 주어지지 않아야합니다.
Andy W

3
기술적으로 (일반적인) 선형 회귀는 , iid 형식의 모델입니다 . 이 간단한 수학적 진술은 모든 가정을 포괄 합니다 . 이것은 @Andy W라고 생각하게합니다. 아마도 당신은 아마도 예술과 회귀 관행의 의미에서 질문을 더 광범위하게 해석 할 수있을 것입니다. 이것에 대한 당신의 추가 생각은 여기서 유용 할 것입니다. Y iE[Yi]=XiβYi
whuber

2
@Andy WI는 귀하의 해석이 잘못되었다고 제안하지 않았습니다. 귀하의 의견은 회귀 결과의 유효한 해석을 위해 무엇이 필요한지 지적하면서 기술적 가정을 넘어서는 질문에 대해 생각할 수있는 방법을 제안했습니다. 이에 대한 답변으로 논문을 작성할 필요는 없지만, 이러한 광범위한 문제 중 일부라도 밝히고이 스레드의 범위와 관심을 넓힐 수 있습니다.
whuber

1
@whuber, 이는 평균이 다른 대해 다르 므로 는 iid가 될 수 없음을 의미합니다.i Y iEYi=XiβiYi
mpiktas

답변:


78

답은 완전하고 평범한 방법을 어떻게 정의 하느냐에 따라 크게 좌우됩니다. 다음과 같은 방식으로 선형 회귀 모델을 작성한다고 가정합니다.

yi=xiβ+ui

여기서 는 예측 변수의 벡터이고, 는 관심있는 매개 변수이고, 는 반응 변수이며, 는 교란입니다. 의 가능한 추정치 중 하나는 최소 제곱 추정치입니다. xiβyiuiβ

β^=argminβ(yixiβ)2=(xixi)1xiyi.

이 추정 할 때 이제 실질적으로 교과서의 모든 가정에 대처 등 unbiasedness, 일관성, 효율성, 일부 분포 특성 등의 바람직한 특성을 가지고 있습니다β^

이러한 각 속성에는 특정 가정이 필요하지만 동일하지 않습니다. 따라서 더 나은 질문은 LS 추정치의 원하는 속성에 어떤 가정이 필요한지 묻는 것입니다.

위에서 언급 한 속성에는 회귀 분석에 대한 확률 모델이 필요합니다. 그리고 우리는 다른 응용 분야에서 다른 모델이 사용되는 상황이 있습니다.

간단한 경우는 를 독립적 인 랜덤 변수로 취급하는 입니다. 는 임의적이지 않습니다. 나는 평소라는 단어를 좋아하지 않지만 우리는 이것이 대부분의 응용 분야에서 일반적인 경우라고 말할 수 있습니다 (내가 아는 한).yixi

통계적 추정의 바람직한 특성 중 일부는 다음과 같습니다.

  1. 추정치가 존재합니다.
  2. 불편 함 : .Eβ^=β
  3. 일관성 : as ( 은 데이터 샘플의 크기입니다).β^βnn
  4. 효율성 : 보다 작은 대안 평가를위한 의 .Var(β^)Var(β~)β~β
  5. 의 분포 함수를 근사화하거나 계산하는 기능 .β^

존재

존재 속성이 이상하게 보일 수 있지만 매우 중요합니다. 의 정의 에서 행렬 뒤집습니다 β^xixi.

이 행렬의 역수가 의 모든 가능한 변형에 대해 존재한다고 보장하지는 않습니다 . 그래서 우리는 즉시 첫 번째 가정을 얻습니다.xi

행렬 는 전체 순위 여야합니다. 즉, 뒤집을 수 없습니다.xixi

편견

우리는이 경우

Eβ^=(xixi)1(xiEyi)=β,
Eyi=xiβ.

우리는 두 번째 가정에 번호를 매길 수도 있지만 선형 관계를 정의하는 자연적인 방법 중 하나이기 때문에 그것을 분명히 언급했을 수도 있습니다.

편견을 갖기 위해서는 모든 대해 만 필요 하며 는 상수입니다. 독립 속성이 필요하지 않습니다.Eyi=xiβixi

일관성

일관성에 대한 가정을 얻으려면 의미를 더 명확하게 설명해야 . 확률 변수의 순서를 위해 우리는 융합의 다양한 모드를 가지고 : 확률, 거의 확실하게, 유통에서 번째 모멘트 의미. 수렴 확률을 얻고 싶다고 가정 해 봅시다. 우리는 많은 수의 법칙을 사용하거나 다변량 체비 쇼프 불평등을 직접 사용할 수 있습니다 ( 라는 사실을 사용함 ).pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(이 불평등의 변형은 Markov의 불평등을 직접 적용함으로써 발생 합니다. ))β^β2Eβ^β2=TrVar(β^)

확률에 수렴 왼쪽 항이 어떤 대한 소멸한다는 것을 의미하기 때문에 으로서 우리는 필요 같이 . 데이터가 많을수록 의 정확도 가 높아지기 때문에 이것은 매우 합리적 입니다.ε>0nVar(β^)0nβ

우리가 그

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

독립성은 보장 하므로 표현식은 Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

이제 이고 Var(yi)=const

Var(β^)=(xixi)1Var(yi).

이제 추가로 가 각 에 대해 경계가 필요한 경우 즉시 얻습니다 1nxixin

Var(β)0 as n.

일관성을 얻기 위해 자기 상관 ( ) 이없고 분산 가 일정하고 가 너무 커지지 않는다고 가정했습니다. 가 독립 샘플에서 나온 경우 첫 번째 가정이 충족됩니다 .Cov(yi,yj)=0Var(yi)xiyi

능률

전형적인 결과는 Gauss-Markov 정리 입니다. 이에 대한 조건은 일관성에 대한 처음 두 가지 조건과 편견에 대한 조건입니다.

분포 속성

가 정상 이면 은 정상 랜덤 변수의 선형 조합이므로 즉시 정상입니다. 이전의 독립성, 상관 관계 및 일정한 분산을 가정하면 여기서 입니다.yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

경우 정상,하지만 독립적이지, 우리의 대략적인 분포를 얻을 수 있습니다 중심 극한 정리 덕분에. 이를 위해 일부 행렬 대해 라고 가정해야합니다 . 라고 가정하면 점근 적 정규성에 대한 상수 분산은 필요하지 않습니다 yiβ^

limn1nxixiA
A
limn1nxixiVar(yi)B.

일정한 편차에 참고 , 우리가 가지고 . 중심 제한 정리는 다음과 같은 결과를 제공합니다.yB=σ2A

n(β^β)N(0,A1BA1).

따라서 우리는 대한 독립성과 상수 분산 과 대한 특정 가정 이 LS 추정치 에 유용한 특성을 많이 제공한다는 있습니다.yixiβ^

문제는 이러한 가정이 완화 될 수 있다는 것입니다. 예를 들어 는 임의의 변수가 아니 합니다. 이 가정은 계량 경제적 응용에 적합하지 않습니다. 만약 우리가 를 무작위로한다면 조건부 기대를 사용하고 의 무작위성을 고려하면 비슷한 결과를 얻을 수 있습니다 . 독립 가정도 완화 될 수 있습니다. 우리는 이미 상관 관계가 필요하지 않다는 것을 이미 증명했습니다. 이조 차도 더 완화 될 수 있으며 LS 추정치가 일관되고 무증상임을 보여줄 수 있습니다. 자세한 내용은 White 's book 을 참조하십시오.xixixi


Gauss-Markov 정리에 대한 의견. 그것은 단지 OLS가 데이터의 선형 함수 인 다른 추정기보다 낫다는 것을 나타냅니다. 그러나 일반적으로 많이 사용되는 추정량, 특히 ML (Maximum Likelihood)은 데이터의 선형 함수가 아니며 Gauss-Markov 정리 조건에서 OLS보다 훨씬 더 효율적일 수 있습니다.
피터 웨스트 폴

@PeterWestfall 가우시안 정규 오류의 경우 MLE는 OLS입니다.) MLE보다 더 효율적일 수는 없습니다. 이 게시물에서 수학적 세부 사항을 밝게하려고했습니다.
mpiktas

1
내 요점은 GM 조건이 유지 될 때 비정규 분포에서 OLS보다 훨씬 더 효율적인 추정량이 있다는 것입니다. GM은 비정규 상황에서 최상의 추정자가 데이터의 비선형 함수이기 때문에 OLS가 비정규 상태에서 "양호"하다는 말로 본질적으로 쓸모가 없습니다.
피터 웨스트 폴

@mpiktas 그래서 우리는 를 무작위가 아닌 것으로 간주하고 추정량 하거나 를 무작위로 사용하고 추정량 합니까? xY^xY|x^
Parthiban Rajendran

16

여기에 많은 좋은 답변이 있습니다. 그러나 언급되지 않은 (적어도 명시 적으로는) 하나의 가정이 있다는 것이 나에게 발생합니다. 구체적으로는, 회귀 모델의 전제 (하여 설명 / 예측 변수의 값) 인 고정 된알려진 및 상황의 불확실성 모두 내에 존재하는 변수. 또한이 불확실성은 샘플링 오류 일 뿐이라고 가정 합니다. XY

이에 대한 두 가지 방법은 다음과 같습니다. 설명 모델을 작성하는 경우 (실험 결과 모델링) 독립 변수의 수준이 무엇인지 정확히 알 수 있습니다. 변수 조작 / 관리하기 때문입니다. 또한 데이터 수집을 시작하기 전에 해당 수준을 결정했습니다. 따라서 응답 내에 존재하는 관계의 모든 불확실성을 개념화하고 있습니다. 반면에 예측 모델을 작성하는 경우 상황이 다르지만 예측 모델을 사용하여 예측을 수행 할 때 예측 변수 고정 된 것으로 알고있는 것으로 간주합니다. 의 가능성있는 값에 대해 벡터,yx모델은 이러한 값이 올바른 것처럼 취급하도록 설계되었습니다. 즉, 불확실성을 의 미지의 값으로 생각할 것입니다 . y

이러한 가정은 원형 회귀 모형의 방정식에서 볼 수 있습니다. 에서 불확실성 (측정 오류로 인해)이 있는 모형은 동일한 데이터 생성 프로세스를 가질 수 있지만 모형은 와 같이 추정됩니다. 여기서 는 임의 측정 오류를 나타냅니다. 후자의 상황 은 변수 모델의 오류에 대한 작업으로 이어 , 기본 결과는 측정 오류가있는 경우 순진한

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1실제 값보다 0에 더 가깝게 감쇠되며, 측정 오류가있는 경우 , 의 통계 테스트에 전력이 공급되지만 그렇지 않은 경우에는 바이어스되지 않습니다.) yβ^

전형적인 가정에 고유 한 비대칭의 실제적인 결과는 회귀이다 상 회귀 상이한 에 . ( 이 사실에 대한 자세한 설명은 x에서 y로 x에서 y로 선형 회귀를 수행하는 것의 차이점은 무엇입니까? )yxxy


"고정" 이란 무엇입니까? 평범한 언어로 "무작위" ? 그리고 고정 효과와 임의 효과 (= 요인)를 구별하는 방법은 무엇입니까? 내 디자인 에는 5 수준의 고정 된 알려진 요소가 1 개 있다고 생각합니다 . 권리?
stan December

1
@stan, 나는 당신의 혼란을 인식합니다. 통계의 용어는 종종 혼란스럽고 도움이되지 않습니다. 이 경우 "고정"은 '고정 효과 및 임의 효과'(고정 효과 및 관련) 의 고정 과 동일하지 않습니다 . 여기서는 효과에 대해 이야기하지 않고 데이터, 즉 예측 변수 / 설명 변수에 대해 이야기 합니다. 고정 된 데이터 의 아이디어를 이해하는 가장 쉬운 방법 은 계획된 실험을 생각하는 것입니다. 실험을 설계 할 때 어떤 작업을하기 전에 설명의 수준을 결정하면 그 과정에서 그 수준을 발견 할 수 없습니다. XX
gung

예측 모델링을 사용하는 것은 사실이 아니지만 향후 모델을 사용하여 예측을 수행 할 때 데이터를 그런 식으로 처리합니다. X
gung

왜 β와 ε이 맨 아래 방정식에는 모자가 있지만 맨 위에 방정식에는 모자가 없습니까?
user1205901

2
@ user1205901, 상위 모델은 데이터 생성 프로세스이며, 하단은 추정치입니다.
gung

8

고전 선형 회귀 모델의 가정은 다음과 같습니다.

  1. 선형 파라미터 및 올바른 모델 사양
  2. X 매트릭스의 전체 순위
  3. 설명 변수는 외생 적이어야합니다
  4. 독립적이고 동일하게 분포 된 오류 조건
  5. 인구의 정규 분포 오차 항

여기에 대한 답변은 이미 고전적인 OLS 가정에 대한 좋은 개요를 제공하지만 고전 선형 회귀 모델의 가정에 대한 더 포괄적 인 설명은 여기에서 찾을 수 있습니다.

https://economictheoryblog.com/2015/04/01/ols_assumptions/

또한이 기사는 특정 가정을 위반하는 경우의 결과에 대해 설명합니다.


6

OLS를 정당화하기 위해 다른 가정을 사용할 수 있습니다

  • 어떤 상황에서는 저자가 정규성을 위해 잔차를 테스트합니다.
    • 그러나 다른 상황에서는 잔차가 정상이 아니며 저자는 어쨌든 OLS를 사용합니다!
  • 동성애가 가정이라는 텍스트가 표시됩니다.
    • 그러나 동성애가 위반 될 때 OLS를 사용하는 연구자들이 있습니다.

무엇을 제공합니까?!

대답은 다소 다른 가정 집합을 사용하여 평소 최소 제곱 (OLS) 추정의 사용을 정당화 할 수 있다는 것입니다. OLS는 망치와 같은 도구입니다. 손톱에 망치를 사용할 수 있지만 못에 사용하여 얼음 등을 분리 할 수도 있습니다.

두 가지 넓은 범주의 가정은 작은 샘플에 적용되는 것과 큰 샘플에 의존하여 중심 한계 정리 가 적용될 수있는 것입니다.

1. 작은 표본 가정

하야시 (2000)에서 논의 된 작은 표본 가정은 다음과 같습니다.

  1. 선형성
  2. 엄격한 외 생성
  3. 다중 공선 성이 없음
  4. 구면 오차 (동질성)

(1)-(4)에서 가우스-마코프 정리가 적용되며, 평소 최소 제곱 추정기는 최상의 선형 비 편향 추정기입니다.

  1. 오차항의 정규성

정상 오차 항을 가정하면 가설 검정을 허용 합니다. 오차항이 조건부 정규이면 OLS 추정기의 분포도 조건부 정상입니다.

주목할만한 또 다른 점은 정규성에 따라 OLS 추정기는 최대 가능성 추정기 입니다.

2. 큰 표본 가정

표본이 많을수록 (OLS 추정기의 일관성을 위해) 중앙 한계 정리 (OLS 추정기의 샘플링 분포가 정규 분포와 가설 검정을 수행하고 p- 값 등에 대해 이야기 할 수 있습니다 ...).

하야시는 거시 경제학자이며 그의 큰 표본 가정은 시계열 컨텍스트를 염두에두고 공식화되었습니다.

  1. 선형성
  2. 인체 공학적 문구
  3. 사전 결정된 회귀 분석기 : 오차항은 동시 오차항과 직교한다.
  4. E[xx] 은 (는) 전체 순위입니다
  5. xiϵi 는 유한 한 두 번째 모멘트를 갖는 마틴 게일 차이 시퀀스 입니다.
  6. 회귀 자의 유한 네 번째 순간

예를 들어, 오류 항이 독립적이라는 가정에서보다 강력한 버전의 가정이 발생할 수 있습니다.

적절한 큰 표본 가정은 무의식적으로 정상적인 OLS 추정기의 표본 분포에 도달하게합니다 .

참고 문헌

후미오 하야시, 2000, 계량 경제학


5

모델로하고 싶은 일에 관한 것입니다. 오류가 긍정적으로 치우 치거나 비정규 적이라고 상상해보십시오. 예측 구간을 만들고 싶다면 t- 분포를 사용하는 것보다 낫습니다. 더 작은 예측 값에서 분산이 더 작 으면 다시 예측 간격이 너무 커집니다.

가정이 왜 존재하는지 이해하는 것이 좋습니다.


4

다음 다이어그램은 유한 시나리오와 점근 시나리오에서 어떤 의미를 갖기 위해 필요한 가정을 보여줍니다.

유한 OLS 가정

점근 적 OLS 가정

나는 가정이 무엇인지뿐만 아니라 그 가정의 의미가 무엇인지 생각하는 것이 중요하다고 생각합니다. 예를 들어, 편향되지 않은 계수 만 신경 쓰는 경우 균일 성 계수가 필요하지 않습니다.


2

다음은 선형 회귀 분석의 가정입니다.

올바른 사양 . 선형 기능 양식이 올바르게 지정되었습니다.

엄격한 외 생성 . 회귀 오류는 조건부 평균 0이어야합니다.

다중 공선 성이 없습니다 . X의 회귀 분석기는 모두 선형 독립적이어야합니다.

Homoscedasticity 는 오차 항이 각 관측치에서 동일한 분산을 갖음 을 의미합니다.

자기 상관 없음 : 오류가 관측치간에 상관되지 않습니다 .

정규성. 때로는 오류가 회귀 변수에 대해 정규 분포를 갖는 것으로 가정됩니다.

관찰 : 는 모든 대해 와 독립적이며 분포가 동일 합니다.(xi,yi)(xj,yj)ij

자세한 내용은 이 페이지를 방문 하십시오 .


4
"다공 선성 없음"보다는 "선형 의존성 없음"이라고합니다 공선 성은 종종 범주 적 측정보다는 연속 측정으로 사용됩니다. 금지 된 것은 엄격하거나 정확한 공선 성입니다.
Peter Flom

2
시계열 회귀 분석은 어떻습니까? 일반화 된 최소 제곱은 어떻습니까? 최소 제곱 추정치의 일관성 및 점근 적 정규성에만 관심이있는 경우 실제로 마지막 4 개의 가정이 너무 제한적일 수있는 경우 목록은 약간의 계명 목록을 읽습니다.
mpiktas

1
다중 공선 성은 해석의 문제 (일부 매개 변수의 식별 가능성과 관련됨)를 발생 시키지만 선형 회귀 모델의 표준 가정 은 아닙니다 . 거의 다 공식 성 ( multicollinearity)은 주로 계산 문제이지만 유사한 해석 문제도 제기합니다.
whuber

@ whuber & Peter Flom : 구자라트 어의 페이지 번호에서 읽었습니다. 65-75. tiny.cc/cwb2g 회귀 분석의 가정으로 "다중 공선 성 이 없음"을 계산합니다.
love-stats

@ mpiktas : 답변에서 주어진 URL을 방문하면 시계열 회귀에 대한 가정을 찾을 수 있습니다.
love-stats

2

단일 가정 목록과 같은 것은 없으며, 적어도 하나는 고정형이고 다른 하나는 랜덤 설계 행렬입니다. 또한 시계열 회귀 에 대한 가정 을보고 싶을 수도 있습니다 (13 페이지 참조).

설계 행렬 가 고정 된 경우가 가장 일반적 일 수 있으며 그 가정은 종종 Gauss-Markov 정리 로 표현됩니다 . 고정 설계로 인해 회귀자를 실제로 제어 할 수 있습니다. 예를 들어, 실험을 수행하고 온도, 압력 등과 같은 매개 변수를 설정할 수 있습니다 . 여기서 p.13도 참조 하십시오 .X

불행히도 경제학과 같은 사회 과학에서는 실험의 매개 변수를 거의 제어 할 수 없습니다. 일반적으로 경제 상황 을 관찰 하고 환경 지표를 기록한 다음 회귀 분석합니다. 그것은 무작위 설계 라고 불리는 매우 다르고 어려운 상황이라는 것이 밝혀졌습니다 . 이 경우 가우스 - 마르코프 정리되고 수정 도 12 페이지를 참조하십시오 여기 . 조건이 현재 조건부 확률로 표현되는 방식을 볼 수 있습니다 . 이는 무해한 변경이 아닙니다.

계량 경제학에서 가정의 이름은 다음과 같습니다.

  • 선형성
  • 엄격한 외 생성
  • 다중 공선 성이 없음
  • 구형 오차 분산 (동질성 및 상관 관계 포함)

나는 결코 정상 성을 언급하지 않았다. 표준 가정이 아닙니다. 인트로 회귀 과정에서 종종 사용됩니다. 왜냐하면 일부 파생을 쉽게 만들 수 있기 때문에 회귀가 작동하고 좋은 속성을 가질 필요는 없습니다.


1

선형성의 가정은 모형에서 모형이 선형이라는 것입니다. 독립 변수의 거듭 제곱 함수가 선형 가법 모델의 일부인 한 2 차 이상의 차수 효과를 갖는 회귀 모델을 사용하는 것이 좋습니다. 모형에 고차 항이 포함되어 있지 않은 경우 잔차 그림에서 적합 부족이 분명해집니다. 그러나 표준 회귀 모형에는 독립 변수가 모수의 제곱으로 증가하는 모형이 포함되지 않습니다 (이러한 모형을 평가하는 데 사용할 수있는 다른 방법이 있음). 이러한 모델에는 비선형 매개 변수가 포함됩니다.


1

최소 제곱 회귀 계수는 모든 종류의 데이터에서 1 차 추세를 요약하는 방법을 제공합니다. @mpiktas answer는 최소 제곱이 점점 최적 인 조건을 철저히 처리합니다. 나는 다른 길로 가고 최소 제곱이 작동 할 때 가장 일반적인 경우를 보여주고 싶습니다. 최소 제곱 방정식의 가장 일반적인 공식을 보자.

E[Y|X]=α+βX

반응의 조건부 평균에 대한 선형 모형 일뿐입니다.

참고 오류 용어를 수정했습니다. 의 불확실성을 요약 하려면 중앙 한계 정리에 호소해야합니다. Lindeberg 조건이 충족 될 때 가장 일반적인 클래스의 최소 제곱 추정기는 정규 수렴합니다. 최소 제곱 에 대한 Lindeberg 조건은 최소 제곱 잔차의 합의 제곱 잔차 합계의 합이 0이되어야합니다. . 설계가 더 크고 더 큰 잔차를 계속 샘플링 할 경우 실험은 "수 중에서 죽습니다".βn

Lindeberg 조건이 충족되면 회귀 모수 가 잘 정의되어 있으며 추정기 는 알려진 근사 분포를 갖는 편향 추정치입니다. 보다 효율적인 추정기가 존재할 수 있습니다. 이분산성 또는 상관 데이터의 다른 경우에는 일반적으로 가중 추정기가 더 효율적 입니다. 그래서 더 좋은 방법을 사용할 수있을 때 순진한 방법을 사용하여 옹호하지 않는 이유가 있습니다. 그러나 그들은 종종 그렇지 않습니다!ββ^


1
계량 경제학자들에게 :이 조건은 엄격한 외 생성을 의미하므로 엄격한 외 생성이 조건부 평균 모델에서 가정으로 언급 될 필요는 없음을 지적 할 가치가있다. 수학적으로 자동으로 적용됩니다. (여기서 말하는 이론은 추정치가 아닙니다.)
Peter Westfall
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.