최대한의 가능성에 맞는 GLM의 친밀하지만 일반적인 속성을 발견했습니다 . 가장 간단한 경우를 고려하면 결과가 사라집니다. 단일 매개 변수를 단일 관측치에 맞추기 !
한 문장으로 답 : 우리가 관심있는 모든 것이 표본의 부분 집합을 분리하는 별도의 수단을 맞추는 것이라면 GLM은 항상 각 부분 집합 에 대해 를 하므로 밀도의 실제 오류 구조와 매개 변수화는 (포인트) 추정과 관련이 없습니다!μ^j=y¯jj
조금 더 : 최대 가능성으로 직교 범주 형 요소를 피팅하는 것은 표본의 하위 집합을 분리하는 별도의 수단을 피팅하는 것과 동일하므로 포아송과 음 이항 GLM이 동일한 모수 추정치를 산출하는 이유를 설명합니다. 실제로 우리가 포아송, 네빈, 가우시안, 역 가우시안 또는 감마 회귀를 사용하더라도 마찬가지입니다 (아래 참조). 포아송 및 네빈의 경우 기본 링크 기능은 링크이지만 빨간색 청어입니다. 이는 동일한 원시 모수 추정치를 산출하지만 아래에서이 특성은 링크 기능과 전혀 관련이 없음을 알 수 있습니다.log
구조가 더 많은 모수화에 관심이 있거나 연속 예측 변수에 의존하는 경우 추정 오차 구조는 모수 및 조건부 모델링에 사용되는 비선형 함수와 관련하여 분포의 평균-분산 관계로 인해 관련이됩니다. 방법.
GLM 및 지수 분산 제품군 : 충돌 과정
자연 형태 의 지수 분산 계열 은 로그 밀도가
logf(y;θ,ν)=θy−b(θ)ν+a(y,ν).
여기서 는 자연 매개 변수 이고 는 분산 매개 변수 입니다. 경우 알려져, 이것은 단지 하나의 표준 파라미터 지수 가족이 될 것입니다. 아래에 고려 된 모든 GLM은이 제품군의 오류 모델을 가정합니다.θνν
이 가족 의 단일 관찰 샘플을 생각해보십시오 . 우리가 맞으면 최우함으로써 그 얻을 와 상관없이 값에 . 이것은 로그 가능성이 추가되어 생성하기 때문에 iid 샘플의 경우로 쉽게 확장됩니다 .θy=b′(θ^)νy¯=b′(θ^)
그러나, 우리는 또한 인한의 함수로서 기록 밀도의 좋은 규칙을 알고 그
따라서 실제로 입니다.θ
∂∂θElogf(Y;θ,ν)=E∂∂θlogf(Y;θ,ν)=0.
b′(θ)=EY=μ
최대 가능성 추정값은 변환에서 변하지 않기
때문에이 밀도 계열에 대해 를 의미합니다
.y¯=μ^
이제 GLM에서 를 로 모델링 합니다. 여기서 는 링크 함수입니다. 그러나 가 위치 에서 단일 1을 제외한 모든 0으로 구성된 벡터 이면 입니다. 그런 다음 GLM의 가능성은 에 따라 인수 분해 되고 위와 같이 진행됩니다. 이것은 직교 요인의 경우입니다.μiμi=g−1(xTiβ)gxijμi=g(βj)βj
연속 예측 변수와 다른 점은 무엇입니까?
예측 변수가 연속적이거나 범주 형이지만 직교 형식으로 축소 될 수없는 경우, 더 이상 별도의 모수에 따라 별도의 평균을 갖는 개별 항을 고려하지 않습니다. 이 시점에서 에러 구조와 링크 기능 이 작동 합니다.
하나가 (지루한) 대수를 크랭크하면 가능성 방정식은
모든 여기서 입니다. 여기서 및 매개 변수는 링크 관계 및 분산 통해 암시 적으로 입력 됩니다.J = 1 , ... , P λ I = X T I β β ν μ I = g ( λ I ) = g ( X T I β ) σ 2 I
∑i=1n(yi−μi)xijσ2i∂μi∂λi=0,
j=1,…,pλi=xTiββνμi=g(λi)=g(xTiβ)σ2i
이러한 방식으로, 링크 함수 및 가정 된 에러 모델이 추정과 관련이된다.
예 : 오류 모델 (거의)은 중요하지 않습니다
아래 예에서는 세 가지 범주 형 요인에 따라 음의 이항 랜덤 데이터를 생성합니다. 각 관측치는 단일 범주에서 나오며 동일한 분산 매개 변수 ( )가 사용됩니다.k=6
우리는 다음 다섯 가지의 GLMS하는 각각의 이용이 데이터에 적합 (: 링크 ) 음 이항 ( B ) 포아송 ( C ) 가우시안 ( D ) 역 가우시안 및 ( E ) 감마 GLMS한다. 이들 모두는 지수 분산 계열의 예입니다.log
이 GLM 중 일부는 불연속 데이터 용이고 다른 일부는 연속적이며 일부는 음이 아닌 데이터에 대한 것이지만 나머지는 그렇지 않은 경우에도 표에서 모수 추정치가 동일 함 을 알 수 있습니다 .
negbin poisson gaussian invgauss gamma
XX1 4.234107 4.234107 4.234107 4.234107 4.234107
XX2 4.790820 4.790820 4.790820 4.790820 4.790820
XX3 4.841033 4.841033 4.841033 4.841033 4.841033
제목의 주의점은 관측치가 특정 밀도의 영역에 속하지 않으면 피팅 절차가 실패한다는 사실에서 비롯됩니다. 예를 들어 위의 데이터에서 무작위로 카운트를 생성 한 경우 Gamma GLM에는 양의 데이터가 엄격하게 필요하므로 Gamma GLM이 수렴하지 못합니다.0
예 : (거의) 링크 기능은 중요하지 않습니다
동일한 데이터를 사용하여 ( a ) 링크, ( b ) ID 링크 및 ( c ) 제곱근 링크의 세 가지 링크 함수를 사용하여 Poisson GLM에 데이터를 피팅하는 절차를 반복합니다 . 아래 표는 로그 매개 변수화로 다시 변환 한 후의 계수 추정치를 보여줍니다. (따라서 두 번째 열에는 되고 세 번째 열에는 각 맞춤 에서 원시 를 사용하는 )가 표시됩니다. 다시 한 번 추정치가 동일합니다.로그 ( β ) 로그 ( β 2 )loglog(β^)log(β^2)β^
> coefs.po
log id sqrt
XX1 4.234107 4.234107 4.234107
XX2 4.790820 4.790820 4.790820
XX3 4.841033 4.841033 4.841033
제목의주의 사항은 단순히 원시 추정치가 링크 함수에 따라 다르지만 암시 적 평균 모수 추정치에는 영향을 미치지 않는다는 사실을 나타냅니다 .
R 코드
# Warning! This code is a bit simplified for compactness.
library(MASS)
n <- 5
m <- 3
set.seed(17)
b <- exp(5+rnorm(m))
k <- 6
# Random negbin data; orthogonal factors
y <- rnbinom(m*n, size=k, mu=rep(b,each=n))
X <- factor(paste("X",rep(1:m,each=n),sep=""))
# Fit a bunch of GLMs with a log link
con <- glm.control(maxit=100)
mnb <- glm(y~X+0, family=negative.binomial(theta=2))
mpo <- glm(y~X+0, family="poisson")
mga <- glm(y~X+0, family=gaussian(link=log), start=rep(1,m), control=con)
miv <- glm(y~X+0, family=inverse.gaussian(link=log), start=rep(2,m), control=con)
mgm <- glm(y~X+0, family=Gamma(link=log), start=rep(1,m), control=con)
coefs <- cbind(negbin=mnb$coef, poisson=mpo$coef, gaussian=mga$coef
invgauss=miv$coef, gamma=mgm$coef)
# Fit a bunch of Poisson GLMs with different links.
mpo.log <- glm(y~X+0, family=poisson(link="log"))
mpo.id <- glm(y~X+0, family=poisson(link="identity"))
mpo.sqrt <- glm(y~X+0, family=poisson(link="sqrt"))
coefs.po <- cbind(log=mpo$coef, id=log(mpo.id$coef), sqrt=log(mpo.sqrt$coef^2))