0으로 덩어리가있는 음이 아닌 데이터 모델 (Tweedie GLM, 0 팽창 GLM 등)이 정확한 0을 예측할 수 있습니까?


15

Tweedie 분포는 모수 (평균-분산 관계에서 지수)가 1과 2 사이 일 때 0으로 점 질량을 사용하여 치우친 데이터를 모델링 할 수 있습니다 .p

유사하게 0 팽창 된 (그렇지 않으면 연속적이든 불연속적인) 모델은 많은 수의 0을 가질 수 있습니다.

이러한 종류의 모델로 적합치를 예측하거나 계산할 때 모든 예측값이 0이 아닌 이유를 이해하는 데 어려움을 겪고 있습니다.

이 모델들이 실제로 정확한 0을 예측할 수 있습니까?

예를 들어

library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1)  # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")

pred이제 0이 없습니다. Tweedie 분포와 같은 모델의 유용성은 정확한 영점과 연속 부분을 예측하는 능력에서 비롯된 것이라고 생각했습니다.

내 예제에서 변수 x가 매우 예측 적이 지 않다는 것을 알고 있습니다.


대한 임의 분포를 허용하는 반모 수 순서 반응 모델도 고려하십시오 . Y
Frank Harrell 2016

답변:


16

GLM에서 예측 된 값은 평균입니다.

를 들어 어떤 음이 아닌 값에 유통하는 예측 평균 0을, 그 분포는 0에서 완전히 스파이크 될 것이다.

그러나 로그 링크를 사용하면 가 로 이동 해야하기 때문에 평균이 정확히 0에 맞지 않습니다 .η

따라서 귀하의 문제는 Tweedie의 문제가 아니라 훨씬 일반적인 문제입니다. 예를 들어 Poisson (0 팽창 또는 일반 Poisson GLM)과 정확히 같은 문제가 있습니다.

Tweedie 분포의 유용성은 정확한 영점과 연속 부분을 예측하는 능력에서 비롯된 것이라고 생각했습니다.

로그 링크를 사용하여 음수가 아닌 값에 대한 분포에서는 정확한 0을 예측할 수 없으므로 이에 대한 생각은 착각해야합니다.

그 매력 중 하나는 평균 예측이 0이 아니라 데이터에서 정확한 0을 모델링 할 수 있다는 것 입니다. 적절한 예측 간격은 예를 들어 0을 포함 할 수있다.]

적합 분포가 실질적으로 0의 비율을 포함한다는 것은 중요하지 않습니다. 이는 적합 평균을 0으로 만들지 않습니다.

링크 기능을 변경하여 ID 링크를 말하면 실제로 문제를 해결하지 못합니다. 모두 0이 아닌 음수가 아닌 임의 변수의 평균은 양수입니다.


1
설명해 주셔서 감사합니다. 나는 tweedie glm을 감마 glm과 비교했으며 베타는 데이터가 포함하는 0의 수에 관계없이 거의 동일합니다 (감마 glm의 경우 0을 매우 작은 값으로 변경합니다). 그리고 영점과 연속 부분을 동시에 예측하는 방법은 무엇입니까?
spore234

2
@ spore234 0/1을 예측하기 위해 이항 장애물이 있고 0이 아닌 데이터에 맞는 감마 모델을 갖는 고유 한 감마 장애물 모델을 굴릴 수 있습니다. 다음 은이 모델과 R에서 직접 수작업으로 맞추는 방법을 설명하는 블로그 게시물 의 링크 입니다. 따로, 무언가가 연속적이라면 정확히 0이라는 것을 어떻게 알 수 있습니까? 측정 장치가 이와 같은 세밀한 측정이 가능합니까?
복원 모니카

2
@spore, 당신은 "0을 예측하는 것"이 ​​실제로 의미하는 바에 대해 더 명확해야합니다. 내 대답은 이미 Tweedie를 대체하는 데 사용 된 다른 분포 모델이 평균 0의 예측을 제공 하지 않는 이유를 확립 합니다 (NB 0 팽창 및 장애물 모델은 평균 예측과 동일한 문제가 있음). 평균 예측이 GLM을 사용할 때 "예측"이 의미하는 바가 있다면 지금 무엇을 의미합니까? 0 팽창 또는 허들 모델이 의미가있는 것을 의미하도록 변경하면 Tweedie는 동일한 조건을 만족시킬 수 있습니다.
Glen_b-복지 주 모니카

1
그것은 실제로 "예측"의 의미에 달려 있습니다 ( "예측 평균"을 의미하지 않기 때문에 원하는 것을 말해야 합니다. 제로 의 확률 을 예측하고 싶습니까? 중간 예측? 다른 것?), 어떤 종류의 것들이 "더 나은"것으로 간주되어 비교 될 수 있습니다.
Glen_b-복지 주 모니카

1
@ spore234 또 문제는 "predict"라는 단어를 사용하지만 "predict"의 의미를 정의하지 못한다는 것입니다 (계속 요청합니다!). 당신이 무슨 말을해야합니다, 그래서 당신은이 상황에서 용어의 가장 확실한 해석을 모두 배제 것으로 표시 것을 의미한다. "이 사람의 비용이 얼마나 될지 예측하십시오"라고 말할 때 실제로 무엇을 의미합니까? 각 개인에 대해 정확한 비용을 얻을 수는 없습니다. 따라서이 "예측"에는 어떤 속성이 있어야합니까?
Glen_b-복귀 모니카

10

0의 비율 예측

나는 statmod 패키지의 저자이며 tweedie 패키지의 공동 저자입니다. 예제의 모든 것이 올바르게 작동합니다. 코드는 데이터에있을 수있는 0을 올바르게 설명합니다.

Glen_b와 Tim이 설명했듯이, 0의 확률이 100 %가 아니면 예측 평균값은 정확히 0이 아닙니다. 관심있는 것은 0의 예측 비율이며, 아래에 표시된 것처럼 모형 적합에서 쉽게 추출 할 수 있습니다.

보다 합리적인 작업 예가 있습니다. 먼저 일부 데이터를 시뮬레이션하십시오.

> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3829  1.0306  2.7737  5.0287  7.4644 20.0855 
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.8482  2.9249  4.7164  6.1522 24.3897 
> sum(y==0)
[1] 12

데이터는 12 개의 0을 포함합니다.

이제 Tweedie glm에 맞습니다.

> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.71253  -0.94685  -0.07556   0.69089   1.84013  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.816784   0.168764   -4.84 4.84e-06 ***
x            0.036748   0.002275   16.15  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Tweedie family taken to be 0.8578628)

    Null deviance: 363.26  on 99  degrees of freedom
Residual deviance: 103.70  on 98  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

엑스ϕ

엑스

> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
        1         2         3         4         5 
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024 
> Prob.Zero[96:100]
          96           97           98           99          100 
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06 

따라서 0의 예측 비율은 가장 작은 평균값에서 38.1 %에서 가장 큰 평균값에서 4.5e-6까지 다양합니다.

정확한 영점 확률에 대한 공식은 Dunn & Smyth (2001) Tweedie Family Densities : 평가 방법 또는 Dunn & Smyth (2005) Tweedie 지수 분산 모델 밀도의 시리즈 평가에서 찾을 수 있습니다.


고마워, 유용한! 정확한 확률 0에 대한 신뢰 구간을 계산하는 방법에 대한 제안 사항이 있습니까? 전혀 이해가 되겠습니까? 또한 2005 년 논문에서 "95 % 가능성 영역"을 정의하는 방법에 대해 의아해합니다. 나는 크게 참조 감사하겠습니다
irintch3

8

이 답변은 예측 제로 팽창 회귀 모델에 대해 묻는 다른 스레드에서 병합되었지만 Tweedie GLM 모델에도 적용됩니다.

에프에프

에프제로 인플(와이)=π나는{0}(와이)+(1π)에프(와이)

나는에프제로 인플(와이)

μ나는=π0+(1π)1(엑스나는'β)

1

와이엑스와이엑스와이엑스이자형(와이|엑스)

예


팀, 이것은 정말 좋은 답변이며 닫기 및 병합 타이밍에 대해 죄송합니다. 더 정식으로 만들거나 더 잘 맞도록 (질문에 답한 것 중 일부를 포함시키기 위해) 추가로 수정 된 질문에 대해 궁금한 점이 있으시면 계속 진행 하시거나 기꺼이 도와 드리겠습니다.
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.