선형 회귀 분석에서 정규성 가정이 필요한 이유


15

내 질문은 매우 간단합니다. 선형 회귀 가정에서 오류 항이 따르는 분포로 정규을 선택하는 이유는 무엇입니까? 왜 우리는 유니폼, t 또는 다른 것과 같은 다른 것을 선택하지 않습니까?


5
우리는 일반적인 가정을 선택 하지 않습니다 . 오차가 정상일 때 모형 계수가 정확히 정규 분포를 따르고 정확한 F- 검정을 사용하여 이들에 대한 가설을 검정 할 수 있습니다.
AdamO

10
사람들이 현대 컴퓨터보다 먼저 수학을 사용할 수있을 정도로 수학이 쉽게 풀릴 수 있기 때문입니다.
Nat

1
@AdamO 나는 이해하지 못한다; 우리가 선택한 이유를 설명했습니다.
JiK

2
@JiK 분포를 선택할 수 있다면 통계가 전혀 필요하지 않습니다. 전 세계는 확률이 될 것입니다.
AdamO

1
@AdamO 통계적 추론을 수행 할 때 모델에 대한 가정을 선택할 수 있으므로 통계가 없다고 생각하지 않습니다.
JiK

답변:


29

다른 오차 분포를 선택합니다. 많은 경우 상당히 쉽게 할 수 있습니다. 최대 우도 추정을 사용하는 경우 손실 함수가 변경됩니다. 이것은 실제로 실제로 이루어집니다.

Laplace (이중 지수 오류)는 최소 절대 편차 회귀 / L1 회귀 (사이트의 수많은 게시물에서 설명)에 해당합니다. t- 오류가있는 회귀는 때때로 사용됩니다 (경우에 따라 총 오류에 대해 더 강력하기 때문에).

균일 한 오차는 L 손실에 해당합니다 (최대 편차 최소화). 이러한 회귀 분석을 체비 쇼프 근사라고도합니다 (기본적으로 같은 이름을 가진 다른 것이 있기 때문에주의하십시오). 다시 말하지만, 이것은 때때로 수행됩니다 (실제로 간단한 회귀 및 일정한 스프레드로 경계 오류가있는 작은 데이터 세트의 경우 실제로 직접 프로그래밍하기가 쉽지만 실제로는 직접 플롯으로 직접 찾을 수있을 정도로 쉬운 경우가 많습니다) 실제로 LL1 회귀 문제는 서로 이중이므로 일부 문제에 대한 편리한 지름길이 생길 수 있습니다.

실제로 다음은 데이터에 직접 적합한 "균일 한 오류"모델의 예입니다.

L- 무한 회귀는 손으로 장착됩니다.  데이터 스트립 아래의 두 "가장 낮은"지점이 표시되고 데이터 스트립 위의 두 "가장 높은"지점이 표시됩니다.

표시된 4 개의 포인트가 활성 세트에있는 유일한 후보임을 쉽게 식별 할 수 있습니다 (데이터를 향해 직선으로 미끄러짐). 그 중 세 개는 실제로 활성 집합을 구성합니다 (그리고 약간의 검사만으로도 어느 세 개가 모든 데이터를 포함하는 가장 좁은 대역으로 연결되는지 식별). 그런 다음 해당 밴드 중앙의 선 (빨간색으로 표시)이 선의 최대 가능성 추정치입니다.

다른 많은 모델 선택이 가능하며 실제로는 몇 가지가 사용되었습니다.

k 형식의 밀도로 가산적이고 독립적이며 일정하게 확산되는 오류가있는 경우kexp(c.g(ε)) , 가능성을 최대화하는 것은ig(ei) 최소화에 해당합니다. 여기서eii 번째 잔차입니다.

그러나 최소 제곱이 널리 사용되는 이유는 여러 가지가 있으며, 그 중 다수는 정규성 가정이 필요하지 않습니다.


2
좋은 대답입니다. 이러한 변형이 실제로 어떻게 사용되는지에 대한 자세한 정보를 제공하는 링크를 추가 하시겠습니까?
rgk

(+1) 정답입니다. -Regression 라인 을 피팅하는 데 사용되는 R 코드를 공유 하시겠습니까 ? L
COOLSerdash

1
본문에서 설명했듯이, 내가 설명한 접근 방식과 매우 유사한 방식으로 손으로 직접 작성했습니다. 코드를 사용하여 충분히 쉽게 수행 할 수는 있지만 문자 그대로 MS Paint에서 플롯을 열고 활성 세트에서 세 점을 식별했습니다 (두 개가 경사면을 나타냄)-선을 반쯤 세 번째 점으로 옮겼습니다. (수직 거리를 픽셀 단위로 반으로 줄을 바꾸어 픽셀 수를 늘림)-이것이 얼마나 간단한 지 보여주는 요점. 아이에게 그렇게 할 수 있습니다.
Glen_b-복지 주 모니카

@Glen_b 사실, 저는 신입 물리학 실험실에서 정확히 그렇게하는 법을 배웠을 때 십대였습니다.
Peter Leopold

9

가장 계산적으로 편리한 선택이므로 보통 / 가우시안 가정이 자주 사용됩니다. 회귀 계수의 최대 우도 추정값을 계산하는 것은 2 차 최소화 문제이며 순수한 선형 대수를 사용하여 해결할 수 있습니다. 다른 노이즈 분포 선택은 일반적으로 수치 적으로 해결해야하는보다 복잡한 최적화 문제를 야기합니다. 특히, 문제는 볼록하지 않아 추가적인 합병증을 유발할 수 있습니다.

일반적으로 정규성이 반드시 좋은 가정은 아닙니다. 정규 분포는 꼬리가 매우 가벼우므로 회귀 추정값이 특이 치에 매우 민감합니다. 측정 데이터에 특이 치가 포함 된 경우 Laplace 또는 Student 's t 분포와 같은 대안이 종종 우수합니다.

자세한 내용은 Peter Huber의 주요 저서 강력한 통계를 참조하십시오.


2

이러한 가설을 다룰 때, 제곱-에로스 기반 회귀와 최대 가능성은 동일한 솔루션을 제공합니다. 또한 계수의 중요성에 대한 간단한 F- 검정과 예측의 신뢰 구간을 얻을 수 있습니다.

결론적으로, 우리가 종종 정규 분포를 선택하는 이유는 그 특성 때문에 종종 일을 쉽게 만듭니다. 다른 많은 유형의 데이터가 "정상적으로"작동하므로 매우 제한적인 가정은 아닙니다.

어쨌든 이전 답변에서 언급했듯이 다른 분포에 대한 회귀 모델을 정의 할 가능성이 있습니다. 정상은 단지 가장 반복적 인 것입니다.


2

Glen_b는 OLS 회귀가 (가능성을 극대화하는 대신 제곱의 합을 최소화) 일반화 될 수 있으며, 우리가 잘 설명하고있다 다른 배포판을 선택합니다.

그러나 왜 정규 분포가 그렇게 자주 선택 됩니까?

그 이유는 정규 분포가 여러 곳에서 자연스럽게 발생하기 때문입니다. 우리가 종종 자연에서 다양한 장소에서 "자발적으로"발생하는 황금 비율 또는 피보나치 수를 보는 것과 약간 같습니다.

정규 분포는 유한 분산을 갖는 변수의 합계에 대한 제한 분포입니다 (또는 덜 엄격한 제한도 가능합니다). 또한 한계를 가지지 않고 유한 한 변수 수의 합계에 대한 근사치이기도합니다. 따라서 관측되지 않은 많은 오류가 관찰되지 않은 많은 작은 오류의 합으로 발생하기 때문에 정규 분포는 근사치입니다.

또한 여기에서 볼 정규 분포의 중요성을

Galton의 콩 기계가 직관적으로 원리를 보여주는 곳

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png


-1

우리는 왜 다른 배포판을 선택하지 않습니까?

yiRxiRnxi

y^i=wxi.

놀람 손실은 일반적으로 가장 합리적인 손실입니다.

L=logP(yixi).

위의 방정식에서 선형 분산을 고정 분산으로 정규 밀도를 사용하는 것으로 생각할 수 있습니다.

L=logP(yixi)(yiy^i)2.

이것은 무게 업데이트로 이어집니다 :

wL=(y^iyi)xi


일반적으로 다른 지수 군 분포를 사용하는 경우이 모형을 일반 선형 모형 이라고합니다 . 다른 분포는 다른 밀도에 해당하지만 예측, 가중치 및 대상을 변경하여보다 쉽게 ​​공식화 할 수 있습니다.

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk

η

f(z)=h(z)exp(ηT(z)g(η)).

ηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,
which has the same nice form as linear regression.


As far as I know, the gradient log-normalizer can be any monotonic, analytic function, and any monotonic, analytic function is the gradient log-normalizer of some exponential family.


This is very short and too cryptic for our standards, please also explain surprisal.
kjetil b halvorsen

1
"each link function corresponds to a different distributional assumption" this is very vague. The link function does not have to do with generalizing to different distributional assumptions, but with generalizing the (linear) part that describes the mean of the distribution.
Sextus Empiricus

1
The linked article contains in section '3.1 Normal distribution' > "More generally, as shown in Nelder (1968), we can consider models in which there is a linearizing transformation f and a normalizing transformation g" I do not know what your gradient log-normalizer refers to, and maybe you are speaking about this normalizing transformation? But, that is not the link function. The link function in GLM relates to the linearizing transformation.
Sextus Empiricus

1
Typically certain link functions are used with certain distributional assumptions. But this is not a necessity. So my distributional assumptions are normal in that example, and not Poisson (that was intentional). Some better (more practical and well known) examples are binomial/Bernouilli distributed variables where people work with a probit model or a logit model, thus different link functions but the same (conditional) distributional assumption.
Sextus Empiricus

1
@Neil G: I'm the lazy one? You could easily have included surprisal in the original post, yes? Also, when I am making such comments, is is more for the site than for myself. This site is supposed to be self-contained. I could have/did guess the meaning (even if it is nonstandard terminology in statistics), as you can see from my answer here, entropy
kjetil b halvorsen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.