선형 회귀 분석에서 각 예측 값은 가능한 값의 정규 분포에서 선택되었다고 가정합니다. 아래를 참조하십시오.
그러나 각 예측값이 정규 분포에서 나온 것으로 가정하는 이유는 무엇입니까? 선형 회귀는이 가정을 어떻게 사용합니까? 가능한 값이 정규 분포를 따르지 않으면 어떻게됩니까?
선형 회귀 분석에서 각 예측 값은 가능한 값의 정규 분포에서 선택되었다고 가정합니다. 아래를 참조하십시오.
그러나 각 예측값이 정규 분포에서 나온 것으로 가정하는 이유는 무엇입니까? 선형 회귀는이 가정을 어떻게 사용합니까? 가능한 값이 정규 분포를 따르지 않으면 어떻게됩니까?
답변:
선형 회귀 자체는 정규 (가우시안) 가정이 필요하지 않으며, 추정자는 이러한 가정이 필요없이 (최소 제곱으로) 계산할 수 있으며 그것 없이는 완벽하게 이해됩니다.
그러나 통계 학자로서 우리는이 방법의 특성 중 일부를 이해하고자합니다. 다음과 같은 질문에 답하십시오. 최소 제곱 추정기 가 어떤 의미에서 최적 입니까? 아니면 다른 추정량으로 더 잘할 수 있습니까? 그런 다음 정규 분포 오차 조건 하에서이 추정값이 실제로 "최소 분산의 편향되지 않음"또는 최대 가능성과 같은 최적임을 알 수 있습니다. 정상적인 가정 없이는 그러한 것을 증명할 수 없습니다.
또한 신뢰 구간 또는 가설 검정을 구성하고 특성을 분석하려는 경우 정규 가정을 사용합니다. 그러나 대신 부트 스트랩과 같은 다른 방법으로 신뢰 구간을 구성 할 수 있습니다. 그렇다면 우리는 일반적인 가정을 사용하지 않지만 아아, 그 없이는 가장 작은 제곱보다는 다른 추정기를 사용해야합니까?
실제로, 정규 분포는 기껏해야 편리한 픽션입니다. 따라서, 가장 중요한 질문은 위에서 언급 한 결과를 사용하기 위해 얼마나 정상에 가까워 야 하는가입니다. 훨씬 까다로운 질문입니다! 최적 결과는 강력 하지 않으므로 정규성에서 아주 작은 편차만으로도 최적 성을 파괴 할 수 있습니다. 그것은 강력한 방법을 선호하는 주장입니다. 그 질문에 대한 또 다른 압정은 왜 일반적인 오류 대신 t 오류를 사용해야합니까?
또 다른 관련 질문은 회귀선을 추정 할 목적으로 잔차의 정규성 이 왜 "가장 중요하지 않은가?"
EDIT
이 해답은 주석에 대한 토론으로 이어졌고, 다시 새로운 질문 인 선형 회귀 : OLS와 MLE을 식별하는 비정규 분포가 있습니까? 이제 비정규 분포가 최소 제곱 추정기로 이어지는 예를 제공하는 최종적으로 (3) 답변을 얻었습니다.
그럴만 한 이유가 없으며 배포 가정을 변경하거나 GLM으로 이동하거나 강력한 회귀로 자유롭게 변경할 수 있습니다. LM (정규 분포)은 계산이 쉽고, 안정적이며 잔차가 실제로 거의 정규 적이기 때문에 널리 사용됩니다.
회귀 분석으로 선형 모형 (= 정상 오차가있는 회귀 분석)은 주어진 분포 가정에 대한 가능성을 최적화하는 모수를 검색합니다. 선형 모형의 가능성에 대한 명시 적 계산의 예는 여기 를 참조 하십시오 . 선형 모델의 로그 가능성을 취하면 제곱의 합에 비례하는 것으로 판명되며 그 최적화는 매우 편리하게 계산할 수 있습니다.
분포가 다른 모형을 적합하게하려면 다음 교과서 단계는 다른 분포를 제공하는 일반화 선형 모형 (GLM) 또는 여전히 정상이지만 독립성을 완화하는 일반 선형 모형입니다. 다른 많은 옵션이 가능합니다. 특이 치의 영향을 줄이려면 강력한 회귀를 예로들 수 있습니다.
질문을 다시 검토 한 후 회귀 모수에 대해 일종의 추론을 수행하지 않는 한 정규 분포를 사용할 이유가 없다고 생각합니다. 선형 회귀를 적용하고 노이즈 항의 분포를 무시할 수 있습니다.