선형 회귀에 대한 일반적인 가정은 무엇입니까?
그들은 다음을 포함합니까?
- 독립 변수와 종속 변수 사이의 선형 관계
- 독립적 인 오류
- 정규 분포 오차
- 동질성
다른 사람이 있습니까?
선형 회귀에 대한 일반적인 가정은 무엇입니까?
그들은 다음을 포함합니까?
다른 사람이 있습니까?
답변:
답은 완전하고 평범한 방법을 어떻게 정의 하느냐에 따라 크게 좌우됩니다. 다음과 같은 방식으로 선형 회귀 모델을 작성한다고 가정합니다.
여기서 는 예측 변수의 벡터이고, 는 관심있는 매개 변수이고, 는 반응 변수이며, 는 교란입니다. 의 가능한 추정치 중 하나는 최소 제곱 추정치입니다.
이 추정 할 때 이제 실질적으로 교과서의 모든 가정에 대처 등 unbiasedness, 일관성, 효율성, 일부 분포 특성 등의 바람직한 특성을 가지고 있습니다
이러한 각 속성에는 특정 가정이 필요하지만 동일하지 않습니다. 따라서 더 나은 질문은 LS 추정치의 원하는 속성에 어떤 가정이 필요한지 묻는 것입니다.
위에서 언급 한 속성에는 회귀 분석에 대한 확률 모델이 필요합니다. 그리고 우리는 다른 응용 분야에서 다른 모델이 사용되는 상황이 있습니다.
간단한 경우는 를 독립적 인 랜덤 변수로 취급하는 입니다. 는 임의적이지 않습니다. 나는 평소라는 단어를 좋아하지 않지만 우리는 이것이 대부분의 응용 분야에서 일반적인 경우라고 말할 수 있습니다 (내가 아는 한).
통계적 추정의 바람직한 특성 중 일부는 다음과 같습니다.
존재
존재 속성이 이상하게 보일 수 있지만 매우 중요합니다. 의 정의 에서 행렬 뒤집습니다
이 행렬의 역수가 의 모든 가능한 변형에 대해 존재한다고 보장하지는 않습니다 . 그래서 우리는 즉시 첫 번째 가정을 얻습니다.
행렬 는 전체 순위 여야합니다. 즉, 뒤집을 수 없습니다.
편견
우리는이
경우
우리는 두 번째 가정에 번호를 매길 수도 있지만 선형 관계를 정의하는 자연적인 방법 중 하나이기 때문에 그것을 분명히 언급했을 수도 있습니다.
편견을 갖기 위해서는 모든 대해 만 필요 하며 는 상수입니다. 독립 속성이 필요하지 않습니다.
일관성
일관성에 대한 가정을 얻으려면 의미를 더 명확하게 설명해야 . 확률 변수의 순서를 위해 우리는 융합의 다양한 모드를 가지고 : 확률, 거의 확실하게, 유통에서 번째 모멘트 의미. 수렴 확률을 얻고 싶다고 가정 해 봅시다. 우리는 많은 수의 법칙을 사용하거나 다변량 체비 쇼프 불평등을 직접 사용할 수 있습니다 ( 라는 사실을 사용함 ).
(이 불평등의 변형은 Markov의 불평등을 직접 적용함으로써 발생 합니다. ))
확률에 수렴 왼쪽 항이 어떤 대한 소멸한다는 것을 의미하기 때문에 으로서 우리는 필요 같이 . 데이터가 많을수록 의 정확도 가 높아지기 때문에 이것은 매우 합리적 입니다.
우리가 그
독립성은 보장 하므로 표현식은
이제 이고
이제 추가로 가 각 에 대해 경계가 필요한 경우 즉시 얻습니다
일관성을 얻기 위해 자기 상관 ( ) 이없고 분산 가 일정하고 가 너무 커지지 않는다고 가정했습니다. 가 독립 샘플에서 나온 경우 첫 번째 가정이 충족됩니다 .
능률
전형적인 결과는 Gauss-Markov 정리 입니다. 이에 대한 조건은 일관성에 대한 처음 두 가지 조건과 편견에 대한 조건입니다.
분포 속성
가 정상 이면 은 정상 랜덤 변수의 선형 조합이므로 즉시 정상입니다. 이전의 독립성, 상관 관계 및 일정한 분산을 가정하면
여기서 입니다.
경우 정상,하지만 독립적이지, 우리의 대략적인 분포를 얻을 수 있습니다 중심 극한 정리 덕분에. 이를
위해 일부 행렬 대해 라고 가정해야합니다
. 라고 가정하면 점근 적 정규성에 대한 상수 분산은 필요하지 않습니다
일정한 편차에 참고 , 우리가 가지고 . 중심 제한 정리는 다음과 같은 결과를 제공합니다.
따라서 우리는 대한 독립성과 상수 분산 과 대한 특정 가정 이 LS 추정치 에 유용한 특성을 많이 제공한다는 있습니다.
문제는 이러한 가정이 완화 될 수 있다는 것입니다. 예를 들어 는 임의의 변수가 아니 합니다. 이 가정은 계량 경제적 응용에 적합하지 않습니다. 만약 우리가 를 무작위로한다면 조건부 기대를 사용하고 의 무작위성을 고려하면 비슷한 결과를 얻을 수 있습니다 . 독립 가정도 완화 될 수 있습니다. 우리는 이미 상관 관계가 필요하지 않다는 것을 이미 증명했습니다. 이조 차도 더 완화 될 수 있으며 LS 추정치가 일관되고 무증상임을 보여줄 수 있습니다. 자세한 내용은 White 's book 을 참조하십시오.
여기에 많은 좋은 답변이 있습니다. 그러나 언급되지 않은 (적어도 명시 적으로는) 하나의 가정이 있다는 것이 나에게 발생합니다. 구체적으로는, 회귀 모델의 전제 (하여 설명 / 예측 변수의 값) 인 고정 된 및 알려진 및 상황의 불확실성 모두 내에 존재하는 변수. 또한이 불확실성은 샘플링 오류 일 뿐이라고 가정 합니다.
이에 대한 두 가지 방법은 다음과 같습니다. 설명 모델을 작성하는 경우 (실험 결과 모델링) 독립 변수의 수준이 무엇인지 정확히 알 수 있습니다. 변수 를 조작 / 관리하기 때문입니다. 또한 데이터 수집을 시작하기 전에 해당 수준을 결정했습니다. 따라서 응답 내에 존재하는 관계의 모든 불확실성을 개념화하고 있습니다. 반면에 예측 모델을 작성하는 경우 상황이 다르지만 예측 모델을 사용하여 예측을 수행 할 때 예측 변수 를 고정 된 것으로 알고있는 것으로 간주합니다. 의 가능성있는 값에 대해 벡터,모델은 이러한 값이 올바른 것처럼 취급하도록 설계되었습니다. 즉, 불확실성을 의 미지의 값으로 생각할 것입니다 .
이러한 가정은 원형 회귀 모형의 방정식에서 볼 수 있습니다. 에서 불확실성 (측정 오류로 인해)이 있는 모형은 동일한 데이터 생성 프로세스를 가질 수 있지만 모형은 와 같이 추정됩니다. 여기서 는 임의 측정 오류를 나타냅니다. 후자의 상황 은 변수 모델의 오류에 대한 작업으로 이어 , 기본 결과는 측정 오류가있는 경우 순진한
전형적인 가정에 고유 한 비대칭의 실제적인 결과는 회귀이다 상 회귀 상이한 에 . ( 이 사실에 대한 자세한 설명은 x에서 y로 x에서 y로 선형 회귀를 수행하는 것의 차이점은 무엇입니까? )
고전 선형 회귀 모델의 가정은 다음과 같습니다.
여기에 대한 답변은 이미 고전적인 OLS 가정에 대한 좋은 개요를 제공하지만 고전 선형 회귀 모델의 가정에 대한 더 포괄적 인 설명은 여기에서 찾을 수 있습니다.
https://economictheoryblog.com/2015/04/01/ols_assumptions/
또한이 기사는 특정 가정을 위반하는 경우의 결과에 대해 설명합니다.
무엇을 제공합니까?!
대답은 다소 다른 가정 집합을 사용하여 평소 최소 제곱 (OLS) 추정의 사용을 정당화 할 수 있다는 것입니다. OLS는 망치와 같은 도구입니다. 손톱에 망치를 사용할 수 있지만 못에 사용하여 얼음 등을 분리 할 수도 있습니다.
두 가지 넓은 범주의 가정은 작은 샘플에 적용되는 것과 큰 샘플에 의존하여 중심 한계 정리 가 적용될 수있는 것입니다.
하야시 (2000)에서 논의 된 작은 표본 가정은 다음과 같습니다.
(1)-(4)에서 가우스-마코프 정리가 적용되며, 평소 최소 제곱 추정기는 최상의 선형 비 편향 추정기입니다.
정상 오차 항을 가정하면 가설 검정을 허용 합니다. 오차항이 조건부 정규이면 OLS 추정기의 분포도 조건부 정상입니다.
주목할만한 또 다른 점은 정규성에 따라 OLS 추정기는 최대 가능성 추정기 입니다.
표본이 많을수록 (OLS 추정기의 일관성을 위해) 중앙 한계 정리 (OLS 추정기의 샘플링 분포가 정규 분포와 가설 검정을 수행하고 p- 값 등에 대해 이야기 할 수 있습니다 ...).
하야시는 거시 경제학자이며 그의 큰 표본 가정은 시계열 컨텍스트를 염두에두고 공식화되었습니다.
예를 들어, 오류 항이 독립적이라는 가정에서보다 강력한 버전의 가정이 발생할 수 있습니다.
적절한 큰 표본 가정은 무의식적으로 정상적인 OLS 추정기의 표본 분포에 도달하게합니다 .
후미오 하야시, 2000, 계량 경제학
다음은 선형 회귀 분석의 가정입니다.
올바른 사양 . 선형 기능 양식이 올바르게 지정되었습니다.
엄격한 외 생성 . 회귀 오류는 조건부 평균 0이어야합니다.
다중 공선 성이 없습니다 . X의 회귀 분석기는 모두 선형 독립적이어야합니다.
Homoscedasticity 는 오차 항이 각 관측치에서 동일한 분산을 갖음 을 의미합니다.
자기 상관 없음 : 오류가 관측치간에 상관되지 않습니다 .
정규성. 때로는 오류가 회귀 변수에 대해 정규 분포를 갖는 것으로 가정됩니다.
관찰 : 는 모든 대해 와 독립적이며 분포가 동일 합니다.
단일 가정 목록과 같은 것은 없으며, 적어도 하나는 고정형이고 다른 하나는 랜덤 설계 행렬입니다. 또한 시계열 회귀 에 대한 가정 을보고 싶을 수도 있습니다 (13 페이지 참조).
설계 행렬 가 고정 된 경우가 가장 일반적 일 수 있으며 그 가정은 종종 Gauss-Markov 정리 로 표현됩니다 . 고정 설계로 인해 회귀자를 실제로 제어 할 수 있습니다. 예를 들어, 실험을 수행하고 온도, 압력 등과 같은 매개 변수를 설정할 수 있습니다 . 여기서 p.13도 참조 하십시오 .
불행히도 경제학과 같은 사회 과학에서는 실험의 매개 변수를 거의 제어 할 수 없습니다. 일반적으로 경제 상황 을 관찰 하고 환경 지표를 기록한 다음 회귀 분석합니다. 그것은 무작위 설계 라고 불리는 매우 다르고 어려운 상황이라는 것이 밝혀졌습니다 . 이 경우 가우스 - 마르코프 정리되고 수정 도 12 페이지를 참조하십시오 여기 . 조건이 현재 조건부 확률로 표현되는 방식을 볼 수 있습니다 . 이는 무해한 변경이 아닙니다.
계량 경제학에서 가정의 이름은 다음과 같습니다.
나는 결코 정상 성을 언급하지 않았다. 표준 가정이 아닙니다. 인트로 회귀 과정에서 종종 사용됩니다. 왜냐하면 일부 파생을 쉽게 만들 수 있기 때문에 회귀가 작동하고 좋은 속성을 가질 필요는 없습니다.
선형성의 가정은 모형에서 모형이 선형이라는 것입니다. 독립 변수의 거듭 제곱 함수가 선형 가법 모델의 일부인 한 2 차 이상의 차수 효과를 갖는 회귀 모델을 사용하는 것이 좋습니다. 모형에 고차 항이 포함되어 있지 않은 경우 잔차 그림에서 적합 부족이 분명해집니다. 그러나 표준 회귀 모형에는 독립 변수가 모수의 제곱으로 증가하는 모형이 포함되지 않습니다 (이러한 모형을 평가하는 데 사용할 수있는 다른 방법이 있음). 이러한 모델에는 비선형 매개 변수가 포함됩니다.
최소 제곱 회귀 계수는 모든 종류의 데이터에서 1 차 추세를 요약하는 방법을 제공합니다. @mpiktas answer는 최소 제곱이 점점 최적 인 조건을 철저히 처리합니다. 나는 다른 길로 가고 최소 제곱이 작동 할 때 가장 일반적인 경우를 보여주고 싶습니다. 최소 제곱 방정식의 가장 일반적인 공식을 보자.
반응의 조건부 평균에 대한 선형 모형 일뿐입니다.
참고 오류 용어를 수정했습니다. 의 불확실성을 요약 하려면 중앙 한계 정리에 호소해야합니다. Lindeberg 조건이 충족 될 때 가장 일반적인 클래스의 최소 제곱 추정기는 정규 수렴합니다. 최소 제곱 에 대한 Lindeberg 조건은 최소 제곱 잔차의 합의 제곱 잔차 합계의 합이 0이되어야합니다. . 설계가 더 크고 더 큰 잔차를 계속 샘플링 할 경우 실험은 "수 중에서 죽습니다".
Lindeberg 조건이 충족되면 회귀 모수 가 잘 정의되어 있으며 추정기 는 알려진 근사 분포를 갖는 편향 추정치입니다. 보다 효율적인 추정기가 존재할 수 있습니다. 이분산성 또는 상관 데이터의 다른 경우에는 일반적으로 가중 추정기가 더 효율적 입니다. 그래서 더 좋은 방법을 사용할 수있을 때 순진한 방법을 사용하여 옹호하지 않는 이유가 있습니다. 그러나 그들은 종종 그렇지 않습니다!