선형 회귀는 정규 분포를 어떻게 사용합니까?


26

선형 회귀 분석에서 각 예측 값은 가능한 값의 정규 분포에서 선택되었다고 가정합니다. 아래를 참조하십시오.

그러나 각 예측값이 정규 분포에서 나온 것으로 가정하는 이유는 무엇입니까? 선형 회귀는이 가정을 어떻게 사용합니까? 가능한 값이 정규 분포를 따르지 않으면 어떻게됩니까?

여기에 이미지 설명을 입력하십시오


2
오류 만 정규 분포를 따릅니다 (X가 주어지면 Y의 조건부 확률도 정상임을 나타냄). 이것은 중앙 한계 정리와 관련된 이유 때문에 아마도 전통적입니다. 그러나 정규 확률을 대칭 확률 분포로 바꾸고 최소 제곱을 통해 동일한 계수 추정치를 얻을 수 있습니다. 차이점은 잔차 표준 오차, 적합도 및 가정의 검증 방법입니다.
Kian

4
일반적인 가정은 주로 가설 검정, CI, PI와 같은 추론에 이릅니다. 다른 가정을하면 적어도 작은 표본에서는 다를 것입니다.
Glen_b-복지 주 모니카

7
또한 일반적인 선형 회귀 분석의 경우 다이어그램이 법선을 대각선이 아닌 수직으로 그려야합니다.
Glen_b-복지 주 모니카

답변:


29

선형 회귀 자체는 정규 (가우시안) 가정이 필요하지 않으며, 추정자는 이러한 가정이 필요없이 (최소 제곱으로) 계산할 수 있으며 그것 없이는 완벽하게 이해됩니다.

그러나 통계 학자로서 우리는이 방법의 특성 중 일부를 이해하고자합니다. 다음과 같은 질문에 답하십시오. 최소 제곱 추정기 가 어떤 의미에서 최적 입니까? 아니면 다른 추정량으로 더 잘할 수 있습니까? 그런 다음 정규 분포 오차 조건 하에서이 추정값이 실제로 "최소 분산의 편향되지 않음"또는 최대 가능성과 같은 최적임을 알 수 있습니다. 정상적인 가정 없이는 그러한 것을 증명할 수 없습니다.

또한 신뢰 구간 또는 가설 검정을 구성하고 특성을 분석하려는 경우 정규 가정을 사용합니다. 그러나 대신 부트 스트랩과 같은 다른 방법으로 신뢰 구간을 구성 할 수 있습니다. 그렇다면 우리는 일반적인 가정을 사용하지 않지만 아아, 그 없이는 가장 작은 제곱보다는 다른 추정기를 사용해야합니까?

실제로, 정규 분포는 기껏해야 편리한 픽션입니다. 따라서, 가장 중요한 질문은 위에서 언급 한 결과를 사용하기 위해 얼마나 정상에 가까워 야 하는가입니다. 훨씬 까다로운 질문입니다! 최적 결과는 강력 하지 않으므로 정규성에서 아주 작은 편차만으로도 최적 성을 파괴 할 수 있습니다. 그것은 강력한 방법을 선호하는 주장입니다. 그 질문에 대한 또 다른 압정은 왜 일반적인 오류 대신 t 오류를 사용해야합니까?

또 다른 관련 질문은 회귀선을 추정 할 목적으로 잔차의 정규성왜 "가장 중요하지 않은가?"

 EDIT

이 해답은 주석에 대한 토론으로 이어졌고, 다시 새로운 질문 인 선형 회귀 : OLS와 MLE을 식별하는 비정규 분포가 있습니까? 이제 비정규 분포가 최소 제곱 추정기로 이어지는 예를 제공하는 최종적으로 (3) 답변을 얻었습니다.


최소 제곱 오차는 일반적인 가정과 같습니다.
Neil G

4
그러한 모순은 없습니다. 예를 들어, Gauss-Markov 정리는 (최소 분산은 선형 분산을 제외하고) 분포 가정이 필요하지 않고 모든 선형 추정기 중에서 최적 (최소 분산 의미)이라고 말합니다. 최소 제곱은 모든 확률 모델과 독립적으로 정의 할 수있는 수치 절차입니다! 그런 다음 확률 적 모델을 사용하여 통계적 관점에서이 절차를 분석합니다.
kjetil b halvorsen

2
@NeilG 법선에 대한 MLE은 최소 제곱이지만 최소 제곱을 의미하지는 않지만 정규성 가정이 수반되어야합니다. 반면, 정규 성과의 편차가 크면 최소 제곱을 좋지 않은 선택으로 만들 수 있습니다 (모든 선형 추정기가 나쁜 경우).
Glen_b-복지 주 모니카

1
@NeilG 내가 말한 것은 LS와 정규성의 등가를 의미하지는 않지만 명시 적으로 동등하다고 말하므로 우리의 두 진술이 심지어는 긴장에 가깝다고 생각하지 않습니다.
Glen_b-복귀 모니카

1
@ 닐 당신의 진술이 실제로 내가 한 말을 어떻게 암시하는지 보여줄 수 있습니까? 나는 정말로 그것을 보지 못한다.
Glen_b-복지 주 모니카

3

토론 잔차가 정규적으로 분포되어 있지만 y가 분포되어 있지 않으면 어떻게됩니까? 이 질문을 잘 해결했습니다.

요컨대, 회귀 문제의 경우, 우리는 x의 값에 따라 반응이 정상이라고 가정합니다. 독립 변수 또는 반응 변수가 독립적 일 필요는 없습니다.


1
  1. 그러나 각 예측값이 정규 분포에서 나온 것으로 가정하는 이유는 무엇입니까?

그럴만 한 이유가 없으며 배포 가정을 변경하거나 GLM으로 이동하거나 강력한 회귀로 자유롭게 변경할 수 있습니다. LM (정규 분포)은 계산이 쉽고, 안정적이며 잔차가 실제로 거의 정규 적이기 때문에 널리 사용됩니다.

  1. 선형 회귀는이 가정을 어떻게 사용합니까?

회귀 분석으로 선형 모형 (= 정상 오차가있는 회귀 분석)은 주어진 분포 가정에 대한 가능성을 최적화하는 모수를 검색합니다. 선형 모형의 가능성에 대한 명시 적 계산의 예는 여기 를 참조 하십시오 . 선형 모델의 로그 가능성을 취하면 제곱의 합에 비례하는 것으로 판명되며 그 최적화는 매우 편리하게 계산할 수 있습니다.

  1. 가능한 값이 정규 분포를 따르지 않으면 어떻게됩니까?

분포가 다른 모형을 적합하게하려면 다음 교과서 단계는 다른 분포를 제공하는 일반화 선형 모형 (GLM) 또는 여전히 정상이지만 독립성을 완화하는 일반 선형 모형입니다. 다른 많은 옵션이 가능합니다. 특이 치의 영향을 줄이려면 강력한 회귀를 예로들 수 있습니다.


0

질문을 다시 검토 한 후 회귀 모수에 대해 일종의 추론을 수행하지 않는 한 정규 분포를 사용할 이유가 없다고 생각합니다. 선형 회귀를 적용하고 노이즈 항의 분포를 무시할 수 있습니다.


2
나에게는별로 이해가되지 않습니다.
SmallChess

0

(엑스나는,와이나는)와이=β엑스+기음β나는(와이나는나는β엑스나는기음)2η나는=와이나는(β엑스나는+기음)βββββ

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.