GLM의 MLE을 찾기 위해 IRLS 방법에 대한 간단한 직관적 설명을 제공 할 수 있습니까?


13

배경:

Princeton의 GLM MLE 추정 검토 를 따르려고합니다 .

내가 MLE 추정의 기초를 이해 : likelihood, score, 관찰 및 예상 Fisher informationFisher scoring기술. 그리고 나는 MLE 추정으로 간단한 선형 회귀 를 정당화하는 방법을 알고 있습니다.


질문:

이 방법의 첫 번째 줄조차 이해할 수 없습니다.

다음과 같이 작업 변수 의 직관은 무엇입니까?zi

zi=η^i+(yiμ^i)dηidμi

왜 를 추정하기 위해 대신에 사용 됩니까?yiβ

그리고 그들과의 관계 response/link function는 와 사이의 연결입니다.ημ

누구든지 간단한 설명이 있거나 이것에 대해 더 기본적인 수준의 텍스트로 안내 할 수 있다면 감사하겠습니다.


1
부수적으로, 나는 전체 "GLM"프레임 워크 ( 여전히 완전히 이해하지 못함)에 대해 듣기 전에 견실 한 (M) 추정 의 맥락에서 IRLS에 대해 배웠다 . 이 방법에 대한 실제적인 관점에서, 최소 제곱의 간단한 일반화로서, 내가 처음 접한 출처를 추천합니다 : Richard Szeliski의 Computer Vision (무료 E-) 서적의 부록 B (처음 4 페이지, 좋은 예도 있습니다).
GeoMatt22

답변:


15

몇 년 전에 나는 학생들 (스페인어)을 위해 이것에 관한 논문을 썼기 때문에 여기서 그 설명을 다시 쓰려고 노력할 수 있습니다. 복잡성을 증가시키는 일련의 예를 통해 IRLS (반복적으로 가중 된 최소 제곱)를 살펴 보겠습니다. 첫 번째 예에서는 위치 규모 제품군의 개념이 필요합니다. 하자 어떤 의미에서 제로를 중심으로 밀도 함수이다. 를 정의하여 밀도 계열을 구성 할 수 있습니다 여기서 되는 스케일 파라미터 f ( x ) = f ( x ; μ , σ ) = 1f0σ>0μf0N(μ,σ)

f(x)=f(x;μ,σ)=1σf0(xμσ)
σ>0μ위치 매개 변수입니다. 일반적으로 오차 항이 정규 분포로 모델링되는 측정 오차 모델에서 정규 분포 대신 위와 같이 위치 스케일 패밀리를 사용할 수 있습니다. 경우 표준 정규 분포이며, 상기 구조가 제공 패밀리.f0N(μ,σ)

이제 간단한 예제에서 IRLS를 사용하겠습니다. 먼저 모델 에서 밀도 ML (최대 가능성) 추정값을 Cauchy 분포는 위치 패밀리 (따라서 이는 위치 패밀리입니다). 그러나 먼저 몇 가지 표기법이 있습니다. 가중 최소 제곱 추정기 주어진다 여기서 는 가중치입니다. 우리는 의 ML 추정량이 와 같은 형식으로 표현 될 수 있음을 알 수 있습니다f ( y ) = 1

Y1,Y2,,Yni.i.d
f(y)=1π11+(yμ)2,yR,
μμ
μ=i=1nwiyii=1nwi.
wiμwi잔차 의 일부 기능 우도 함수는 이고 로그 우도 함수는 대한 파생어 는 여기서 입니다. 쓰다
ϵi=yiμ^.
L(y;μ)=(1π)ni=1n11+(yiμ)2
l(y)=nlog(π)i=1nlog(1+(yiμ)2).
μ
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμf0(ϵ)=1π11+ϵ2 및 이면 우리는 발견 우리의 정의를 사용 f0(ϵ)=1π12ϵ(1+ϵ2)2
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
것을 기억 우리가 식을 구하는 IRLS의 예측 식이다. 참고ϵi=yiμ
wiyi=μwi,
  1. 가중치 는 항상 양수입니다.wi
  2. 잔차가 크면 해당 관측치에 가중치가 적습니다.

실제로 ML 추정기를 계산하려면 시작 값 이 필요합니다. 예를 들어 중간 값을 사용할 수 있습니다. 이 값을 사용하여 잔차 및 가중치 의 새로운 값 주어진다 이런 식으로 계속해서 우리는 및 알고리즘 의 패스 에서의 추정값 은 μ^(0)

ϵi(0)=yiμ^(0)
wi(0)=21+ϵi(0).
μ^
μ^(1)=wi(0)yiwi(0).
ϵi(j)=yiμ^(j)
wi(j)=21+ϵi(j).
j+1
μ^(j+1)=wi(j)yiwi(j).
시퀀스 수렴 될 때까지 계속합니다.
μ^(0),μ^(1),,μ^(j),

이제 우리는보다 일반적인 위치 및 스케일 패밀리 로이 프로세스를 연구합니다 . 하자 위의 밀도 독립적. 도 정의하십시오 . 로그 우도 함수는 기록 , 참고 과 로그 우도 미분 계산 f(y)=1σf0(yμσ)Y1,Y2,,Ynϵi=yiμσ

l(y)=n2log(σ2)+log(f0(yiμσ)).
ν=σ2
ϵiμ=1σ
ϵiν=(yiμ)(1ν)=(yiμ)12σ3.
l(y)μ=f0(ϵi)f0(ϵi)ϵiμ=f0(ϵi)f0(ϵi)(1σ)=1σfo(ϵi)f0(ϵi)(1ϵi)(ϵi)=1σwiϵi
이고 이것을 0과 같으면 첫 번째 예와 동일한 추정식이 제공됩니다. 그런 다음 에 대한 추정기를 검색하십시오 . σ2
l(y)ν=n21ν+f0(ϵi)f0(ϵi)ϵiν=n21ν+f0(ϵi)f0(ϵi)((yiμ)2σ3)=n21ν121σ2f0(ϵi)f0(ϵi)ϵi=n21ν121νf0(ϵi)f0(ϵi)(1ϵi)(ϵi)ϵi=n21ν+121νwiϵi2=!0.
추정기 이 경우에도 위의 반복 알고리즘을 사용할 수 있습니다.
σ2^=1nwi(yiμ^)2.

다음에서는 이중 지수 모델 (알려진 척도) 및 data에 대해 R을 사용하여 수치 예를 제공합니다 y <- c(-5,-1,0,1,5). 이 데이터의 경우 ML 추정기의 실제 값은 0입니다. 초기 값은입니다 mu <- 0.5. 알고리즘의 한 단계는

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

이 기능을 사용하면 "수동으로"반복을 수행하여 실험 할 수 있습니다. 그런 다음 반복 알고리즘을 사용하여 수행 할 수 있습니다.

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

연습 : 모형이 스케일 모수 분포 인 경우 반복은 가중치 연습 : 밀도가 로지스틱 인 경우 가중치가 tkσ(ε)=1-Eε

wi=k+1k+ϵi2.
w(ϵ)=1eϵ1+eϵ1ϵ.

여기에 남겨 두는 동안이 게시물을 계속하겠습니다.


와우, 좋은 부드러운 소개! 그러나 항상 모든 인스턴스에 대해 단일 매개 변수 를 참조하고 있으며 인용 한 소스 는 인스턴스마다 다른 에 대해 이야기 합니다. 이것은 사소한 수정입니까? 는 u Iuui
ihadanny

1
시간이 지나면 이것에 더 추가하겠습니다! 아이디어는 동일하게 유지되지만 세부 사항이 더 복잡해집니다.
kjetil b halvorsen

2
그것에 올 것이다!
kjetil b halvorsen

1
그리고 물류 밀도에 대한 가중치를 보여주는 운동에 감사드립니다. 그 과정을 통해 많은 것을 배웠습니다. 나는 분포를 모른다. 그것에 대해 아무것도 찾을 수 없었다.tk
ihadanny

2
이 설명을 계속 어딘가에 블로그 게시물을 작성 하시겠습니까? 나에게 정말 유용하고 나는 다른 사람들을 위해있을 것이라고 확신합니다 ...
ihadanny
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.