GLM의 로그 가능성이 글로벌 최대 값으로 수렴을 보장합니까?


16

내 질문은 :

  1. 일반화 된 선형 모델 (GLM)이 전체 최대 값으로 수렴되도록 보장됩니까? 그렇다면 왜 그렇습니까?
  2. 또한, 볼록 함을 보장하기 위해 링크 기능에는 어떤 제약이 있습니까?

GLM에 대한 나의 이해는 이들이 매우 비선형 우도 함수를 최대화한다는 것입니다. 따라서 여러 로컬 최대 값이 있고 수렴 할 매개 변수 세트가 최적화 알고리즘의 초기 조건에 따라 다르다고 생각합니다. 그러나 몇 가지 연구를 한 후에 여러 로컬 최대 값이 있음을 나타내는 단일 소스를 찾지 못했습니다. 또한 최적화 기술에 익숙하지는 않지만 Newton-Raphson 방법과 IRLS 알고리즘이 로컬 최대 값에 매우 취약하다는 것을 알고 있습니다.

가능하면 직관적이고 수학적으로 설명하십시오!

편집 : dksahuji는 내 원래의 질문에 대답했지만 위 의 후속 질문 [ 2 ] 을 추가하고 싶습니다 . ( "볼록을 보장하기 위해 링크 기능에는 어떤 제약이 있습니까?")


그렇게하기 위해서는 몇 가지 제한이 필요하다고 생각합니다. 성명서의 출처는 무엇입니까?
Glen_b-복지국 모니카

여러 사이트가 그것을 암시하는 것처럼 보였지만 그것을 언급 한 것을 찾을 수 없었기 때문에 그 증거를 환영합니다!
DankMasterDan 2012

가능성이 도메인의 모든 곳에서 잘 정의되어 있고 (접선적인 수치 문제를 무시하는 한) 나는 그렇다고 생각합니다. 이러한 조건에서 hessian은 도메인의 모든 곳에서 <0이므로 가능성은 전 세계적으로 오목합니다. Btw에서 함수는 매개 변수에서 '매우 비선형 적'이 아니며 그것이 중요합니다.
user603

@ user603 hessian이 <0 사방에 있다는 소스 / 증거는 무엇입니까?
DankMasterDan

로지스틱, 포아송 및 가우시안 회귀는 종종 "좋은"링크 기능으로 볼록합니다. 그러나 임의의 링크 기능을 사용하면 볼록하지 않습니다.
Memming

답변:


11

지수 패밀리의 정의는 다음과 같습니다.

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

여기서 는 로그 분할 함수입니다. 이제 다음 세 가지가 1D 사례에 적용된다는 것을 증명할 수 있습니다.A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

상기 결과는 증명 ( θ가 ) (로 볼록 인 C O V ( φ ( x는 ) ) 긍정적 인 semidefinite). 이제 MLE의 우도 함수를 살펴 보겠습니다. A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

지금 인 선형 및 세타 - ( θ는 ) 오목하다. 따라서 고유 한 전역 최대 값이 있습니다.θT[ϕ(D)]A(θ)

곡선 지수 패밀리 (curved exponential family)라고하는 일반화 된 버전이 있는데, 이것 또한 비슷합니다. 그러나 대부분의 증거는 정식 형태입니다.


그렇다면 GLM에 링크 기능 (비정규 항목 포함)을 선택하는 고유 한 글로벌 최소 노마 터가 있습니까?
DankMasterDan 2019

1
나는 그것을 이해하는 한 대답하려고 노력할 것이다. 는 당신이 말하고있는 경우입니다. 이것은 여전히 η에 오목 하지만 θ에 있지 않을 수 있으므로 η 는 전체 로그 우도가 θ에 오목 하도록 해야합니다 . p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ)))ηθηθ
dksahuji

이 질문은 단지 존재가 아니라 수렴에 대해 묻지 만, 몇 가지 제한이 있지만, 그 역시 가능할 수 있습니다.
Glen_b-복지 주 모니카

@Glen_b 좀 더 자세히 설명해 주시겠습니까? 나는 그런 제한을 모른다. 오목한 기능의 경우 그라디언트 기반 옵티 마이저에서 단계 화에 대한 제한과 같은 것이 수렴을 보장합니다.
dksahuji

1
@Glen_b 일반적으로 사실 일 수도 있지만 오목한 함수가 허용 가능한 작은 값 내에서 최적으로 수렴하지 않는 이유를 알 수 없습니다. 그러나 나는 이것에 대한 실질적인 경험이 없으며 방금 시작했다고 말합니다. :)
dksahuji
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.