glmnet : 다항식 매개 변수를 이해하는 방법은 무엇입니까?


11

다음 문제 : glmnet ()을 사용하여 하나 이상의 범주 형 변수로 범주 형 응답 변수를 예측하고 싶습니다.

그러나 glmnet이 제공하는 출력을 이해할 수 없습니다.

먼저 두 가지 관련 범주 형 변수를 생성 해 보겠습니다.

데이터 생성

p <- 2 #number variables
mu <- rep(0,p)
sigma <- matrix(rep(0,p^2), ncol=p)
sigma[1,2] <- .8 #some relationship ..
diag(sigma) <- 1
sigma <- pmax(sigma, t(sigma))
n <- 100
set.seed(1)
library(MASS)
dat <- mvrnorm(n, mu, sigma)
#discretize
k <- 3 # number of categories
d <- apply(dat, 2, function(x) {
  q <- quantile(x, probs=seq(0,1, 1/k))[-c(1, k+1)]
  out <- numeric(length(x))
  for(i in 1:(k-1))
  {  out[x<q[k-i]] <- i } 
  return(out)
})
d <- data.frame(apply(d, 2, as.factor))
d[,2] <- relevel(d[,2], ref="0")
d[,1] <- relevel(d[,1], ref="0")
colnames(d) <- c("X1", "X2")

우리는 얻는다 :

> table(d)
   X2
X1   0  1  2
  0 22 11  1
  1  9 14 10
  2  3  8 22

예측 : multinom ()

그런 다음 nnet 패키지의 multinom ()을 사용하여 X1을 X2로 예측합시다.

library(nnet)
mod1 <- multinom(X1~X2, data=d)
mod1

그것은 우리에게 :

Call:
multinom(formula = X1 ~ X2, data = d)

Coefficients:
  (Intercept)      X21      X22
1  -0.8938246 1.134993 3.196476
2  -1.9924124 1.673949 5.083518

수동 확인

이제 수동으로 재현 할 수 있는지 확인하겠습니다.

tb <- table(d)
log(tb[2,1] / tb[1,1]) #intercept category1
[1] -0.8938179
log(tb[3,1] / tb[1,1]) #intercept category2
[1] -1.99243
log((tb[1,1]*tb[2,2]) / (tb[1,2]*tb[2,1])) #logodds-ratio cat X1 0vs1 in X2 0vs1
[1] 1.13498
#same for the three remaining log odds ratios

우리는 같은 숫자를 생산합니다!

예측 : glmnet ()

이제 glmnet으로 똑같이 해봅시다 :

library(glmnet)
y <- d[,1]
X <- model.matrix(X1~X2, data=d)[,-1]
mod2 <- glmnet(X, y, family="multinomial", lambda=c(0))
coef(mod2, s=0) #meaning of coefficients unclear!
$`0`
3 x 1 sparse Matrix of class "dgCMatrix"
                     1
(Intercept)  0.9620216
X21         -1.1349130
X22         -3.1958293   

$`1`
3 x 1 sparse Matrix of class "dgCMatrix"
                     1
(Intercept) 0.06825755
X21         .         
X22         .         

$`2`
3 x 1 sparse Matrix of class "dgCMatrix"
                     1
(Intercept) -1.0302792
X21          0.5388814
X22          1.8870363

s = 0을 설정 했으므로 정규화가 없으므로 매개 변수에는 multinom () 함수의 매개 변수와 정확히 동일한 정보가 포함되어야합니다.

여전히 우리는 매우 다른 매개 변수를 얻습니다. 이는 glmnet에서 사용하는 매개 변수가 다르기 때문입니다. 예 :

http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html (제목 : 다항식 모델) 또는 해당 논문 : http://www.jstatsoft.org/v33/i01/paper (제목 : 4. 정규화 다항 회귀)

그러나 정확히 하나의 매개 변수화에 관계없이 에 대한 조건 k의 확률 인 동일한 를 가져와야합니다.(와이=케이|엑스)

조건부 확률 : multinom ()

그래서 먼저 multinom ()에서 이러한 확률을 계산합니다.

p.fit <- predict(mod1, type="probs")
head(d)
head(p.fit)
ccp <- matrix(0,3,3)
ccp[,3] <- p.fit[1,]
ccp[,2] <- p.fit[2,]
ccp[,1] <- p.fit[4,]
ccp
           [,1]      [,2]       [,3]
[1,] 0.64705896 0.3333332 0.03030114
[2,] 0.26470416 0.4242450 0.30303140
[3,] 0.08823688 0.2424218 0.66666746
colSums(ccp) #sum to 1, ok; sorry for the awful code ...
[1] 1 1 1

여기 포화 모델이 있으므로 데이터에서 계산할 수있는 것과 동일해야합니다.

emp <- table(d)/100
cemp <- apply(emp, 2, function(x) {
  x / sum(x)
})
cemp 
   X2
             0         1          2
  0 0.64705882 0.3333333 0.03030303
  1 0.26470588 0.4242424 0.30303030
  2 0.08823529 0.2424242 0.66666667

실제로 그런 경우입니다.

조건부 확률 : glmnet ()

이제 glmnet과 동일합니다.

c1 <- coef(mod2, s=0)
c <-matrix(rapply(c1, function(x) { as.matrix(x)}, how="unlist"), 3,3, byrow=T)

ccp2 <- matrix(0,3,3)
config <- rbind(c(0,0), c(1,0), c(0,1))

for(l in 1:3) #loop through categories
{
  denom <- numeric(3)
  for(i in 1:3) # loop through possible predictor combinations
  { 
    x1 <- config[i, 1]
    x2 <- config[i, 2]
    denom[i] <- exp(c[l,1] + x1 * c[l,2]  + x2 * c[l,3])
  }
  ccp2[l,1] <- denom[1] / sum(denom)
  ccp2[l,2] <- denom[2] / sum(denom)
  ccp2[l,3] <- denom[3] / sum(denom)
}
ccp2
          [,1]      [,2]       [,3]
[1,] 0.7340082 0.2359470 0.03004484
[2,] 0.3333333 0.3333333 0.33333333
[3,] 0.1073668 0.1840361 0.70859708
colSums(ccp2)
[1] 1.1747083 0.7533165 1.0719753

셀 조건부 확률은 다소 관련되어 있지만 다릅니다. 또한 그들은 하나까지 합치 지 않습니다.

따라서 여기에는 두 가지 문제가 있습니다.

a) 조건부 확률의 합은 1이 아니며

b) 매개 변수는 데이터에서 우리가 보는 것을 설명하지 않습니다. 예를 들어 2 행에는 열에 차이가 있지만 glmnet은 두 계수 (절편이 아님)를 0으로 추정합니다.

선형 회귀 문제를 사용하고 glm과 glmnet을 s = 0과 비교하여 s = 0이 정규화 0이 아님을 확인했습니다 (솔루션이 거의 동일 함).

모든 도움과 아이디어는 대단히 감사하겠습니다!

답변:


5

multinom 및 glmnet의 매개 변수에 대해이 답변이 유익하다는 것을 알았습니다 .glm 알고리즘을 사용하여 다항 로지스틱 회귀를 수행 할 수 있습니까?

특히 "Poisson GLM (로그 선형 모델)을 사용하면 다항식 모델에 적합 할 수 있습니다. 따라서 다항 로지스틱 또는 로그 선형 Poisson 모델은 동일합니다."

그래서 glmnet 계수를 다항 계수로 재 파라미터 화하는 방법을 보여 드리겠습니다.

n.subj=1000
x1 <- rnorm(n.subj)
x2 <- rnorm(n.subj)
prob <- matrix(c(rep(1,n.subj), exp(3+2*x1+x2), exp(-1+x1-3*x2)), , ncol=3)
prob <- sweep(prob, 1, apply(prob, 1, sum), "/")

y = c()
for (i in 1:n.subj)
  y[i] <- sample(3, 1, replace = T, prob = prob[i,])

multinom(y~x1+x2)

x <- cbind(x1,x2); y2 <- factor(y)
fit <- glmnet(x, y2, family="multinomial", lambda=0, type.multinomial =     "grouped")
cf <- coef(fit)

cf[[2]]@x - cf[[1]]@x   # for the category 2
cf[[3]]@x - cf[[1]]@x   # for the category 3

도움이 되었기를 바랍니다. 그러나 나는 일반 선형 모형 (Poisson)과 다항 로지스틱 모형의 등가를 이해하고 있다고 생각하지 않습니다.

읽기 쉽고 읽기 쉽고 이해하기 쉬운 소스가 있는지 알려주세요.


1
"이유"에 대한 추가 설명이 있습니까? 즉, glment가 더 일반적인 다항식 계수와 '기본'계수의 조합 인 계수를 생성하는 이유는 무엇입니까? 이를 통해 각 계수 세트를 로그 선형 모델 로 해석 할 수 있습니까?
samplesize1

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.