오차가 정규 분포를 따르지 않는 경우 최소 제곱 법과 최대 가능성 회귀 분석법이 다른 이유는 무엇입니까?


10

제목은 모든 것을 말합니다. 최소 오차와 최대 확률은 모형의 오차가 정규 분포를 따르는 경우 회귀 계수에 대해 동일한 결과를 제공한다는 것을 이해합니다. 그러나 오류가 정상적으로 분포되지 않으면 어떻게됩니까? 두 방법이 더 이상 동일하지 않은 이유는 무엇입니까?


(a) 정규성 가정이 충족되지 않을 때 MLE을 사용하거나 (b) 비 가우시안 우도 함수를 사용한다는 의미입니까?

(a) 정규성의 가정이 충족되지 않는 경우
Shuklaswag

가정이 충족되지 않더라도 (즉, 관측 값이 가우스 분포가 아님) ... 가우스 우도 함수를 사용하여 MLE을 계산하면 최소 제곱 최적화와 동일하게 수행됩니다. 최적화 방법은 수학적으로 동일하며 정규성 가정이 올바른지 여부와 관계가 없습니다.
Sextus Empiricus

정규 분포에서도 최소 제곱은 고정 분산을 부과합니다.
코드 InChaos

이 관련 질문도 참조하십시오 : stats.stackexchange.com/questions/173621/…
kjetil b halvorsen

답변:


16

짧은 대답

다변량 가우시안 확률 밀도 분포 변수 엑스=(엑스1,엑스2,...,엑스) , 평균, μ=(μ1,μ2,...,μ) 의 제곱에 관련 평균과 변수 사이의 유클리드 거리 ( |μx|22 ), 즉 제곱의 합.


긴 답변

동일한 편차를 가정하는 n 오차에 대해 여러 가우스 분포를 곱하면 제곱합이됩니다.

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμ나는)22σ2]

또는 편리한 로그 형태로 :

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

따라서 , 제곱의 합을 최소화하기 위해 μ 를 최적화 하는 것은 (log) 가능성을 최대화하는 것과 같습니다 (즉, 다중 가우시안 분포 또는 다변량 가우시안 분포의 곱).

다른 분포에는없는 e x p [ ( x i - μ ) 2 ]의 지수 구조 내 에서이 중첩 된 제곱 차 (μx) 입니다.exp[(xiμ)2]


예를 들어 포아송 분포의 경우와 비교

로그()=로그(μ제이엑스나는제이엑스나는제이!이자형엑스[μ제이])=μ제이영형(엑스나는제이!)+영형(μ제이)엑스나는제이

다음을 최소화하면 최대 값을 갖습니다.

μ제이영형(μ제이)엑스나는제이

다른 짐승입니다.


또한 (역사)

정규 분포의 이력 (deMoivre가이 분포에 대한 근사치로이 분포에 도달하는 것을 무시 함)은 실제로 MLE을 최소 제곱 법 (메소드 인 최소 제곱 법이 아닌)에 대응시키는 분포의 발견과 같습니다. 정규 분포의 MLE을 표현할 수 있고, 먼저 최소 제곱 법이, 두 번째는 가우시안 분포입니다.

이자형엑스2

찰스 헨리 데이비스 (Charles Henry Davis)의 번역 (원뿔 부분에서 태양을 중심으로 움직이는 천체의 운동 이론. 부록이있는 가우스의 "이론적 해부"번역) ...

가우스는 다음을 정의합니다.

ΔΔψΔ

(나에 의해 이탤릭체 화)

그리고 계속한다 ( 177 pp. 258 ) :

ψ'ΔΔ케이

로그 ψΔ=12케이ΔΔ+일정한
ψΔ=엑스이자형12케이ΔΔ
이자형
일정한=로그엑스

케이<0

ψΔ=hπ이자형hhΔΔ


StackExchangeStrike에 의해 작성


이 지식을 어디서 얻었는지 기억하십니까? 소식에 출처를 추가 하시겠습니까? (저는 이것을 잘 설명하는 교과서를 찾는 데 어려움을
겪고

@Joooeey 필자는 Gauss의 번역 된 인용문에 대한 소스 제목과 여러 온라인 소스 중 하나에 대한 링크를 추가했습니다. 이 원본은 무겁지만 정규 분포의 역사에 대한 설명에서 더 가벼운 조약을 만나야합니다.
Sextus Empiricus

가능성 기능이 여러 곳에 나타납니다. 이 '지식'을 얻은 출처를 찾으면 다변량 정규 분포가 기하학적으로 처리되는 카이 제곱 검정에 대한 Pearson의 1900 기사를 말할 수 있다고 생각합니다. 또한 Fisher는 기하학적 표현을 여러 번 사용했습니다 (예를 들어, 추정 효율에 관한 20 년대의이 기사는 평균 제곱 오차와 절대 오차를 비교하고 초 공간의 표면에 대해 말하는 위치).
Sextus Empiricus

@Joooeey 여기 이전에 해당 Fisher 기사를 참조했습니다 . 그리고 여기의 대답 은 기하학적 관점을 사용하여 Fisher와 관련된 t- 분포의 속성을 도출합니다 (나는 그가 Gosset의 t- 분포를 증명하는 기사 또는 어쩌면 약간의 기사를 믿습니다).
Sextus Empiricus

5

MLE는 정규 분포가 잔존한다는 ​​가정에서 비롯된 것입니다.

참고

β  엑스β와이2

β

확률과 가능성의 개념이 나오는 곳은

와이=엑스β+ϵ

와이ϵ


@Matthew Drury 왜 행렬 표기법을 변경하고 합계 부호를 추가합니까?
Haitao Du

나는 그것이 분명 할 것이라고 생각했지만, 진술에 probalistic 의미가 없다고 주장하면 임의 변수로 가장 잘 해석되는 기호가있는 표현식을 사용할 수 없습니다. 당신이 방어하는 최적화 문제는 고정 데이터와 관련이 있습니다.
Matthew Drury

5

최소 제곱과 최대 (가우시안) 가능성 적합은 항상 같습니다. 즉, 동일한 계수 세트로 최소화됩니다.

오차에 대한 가정을 변경하면 우도 함수가 변경되므로 (모델의 우도는 오류 항의 우도를 최대화하는 것과 같습니다) 따라서 동일한 계수 세트로 함수가 더 이상 최소화되지 않습니다.

실제로 두 개는 동일하지만 이론적으로 다른 가능성을 최대화하면 최소 제곱과 다른 답변을 얻을 수 있습니다.


"또는 항상 동등한"?
nbro

0

구체적인 예 : 간단한 오류 함수 p (1) =. 9, p (-9) = .10을 가정합니다. 우리가 두 점을 취하면 LS는 그 점을 통과 할 것입니다. 반면에 ML은 두 지점이 모두 한 단위가 너무 높다고 가정하므로 단위에서 아래로 이동 한 지점을 통해 선을 그립니다.


2
당신의 예는 불분명합니다. 특히 어떤 모델을 설명하려고하는지 또는 ML이 주장하는 결과를 생성하는 이유를 파악하기가 어렵습니다. 이 답변에서 더 자세히 설명해 주시겠습니까?
whuber

모델은 y = mx + b + error이며, 오류의 90 % 확률은 +1이고 10 % 확률은 -9입니다. 관찰 된 점이 주어지면, 실점은 90 %가 1 단위 아래 일 가능성이 있고 10 %가 9 단위 이상일 가능성이 있습니다. 따라서 ML은 실제 지점이 아래의 한 단위임을 나타냅니다. 당신은 이것에 대해 무엇을 이해하지 못합니까?
Accumulation

2
귀하의 의견은 도움이되지만 귀하의 답변은 여전히 ​​명확하거나 이해할 수있는 방식으로 모델을 설명하지 않습니다. 그 설명을 답변 자체에 포함시킬 수 있습니까? 좋은 예입니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.