y
정규 예측 변수의 카운트 데이터 를 예측하는 장애물 모델을 고려하십시오 x
.
set.seed(1839)
# simulate poisson with many zeros
x <- rnorm(100)
e <- rnorm(100)
y <- rpois(100, exp(-1.5 + x + e))
# how many zeroes?
table(y == 0)
FALSE TRUE
31 69
이 경우 69의 0과 31의 양의 카운트로 카운트 데이터가 있습니다. 내 질문은 허들 모델에 관한 것이기 때문에 이것이 데이터 생성 절차의 정의에 의한 Poisson 프로세스라는 점을 잊지 마십시오.
허들 모델에 의해 이러한 초과 제로를 처리하고 싶다고 가정 해 봅시다. 내가 읽은 바에 따르면 허들 모델 자체는 실제 모델이 아닌 것 같습니다. 그들은 두 가지 다른 분석을 순차적으로 수행하고 있습니다. 먼저 값이 양수인지 0인지를 예측하는 로지스틱 회귀 분석입니다. 둘째, 0 이 아닌 경우 만 포함하여 0으로 절단 된 포아송 회귀 분석입니다 . 이 두 번째 단계는 (a) 완벽하게 좋은 데이터를 버리기 때문에 (b) 많은 데이터가 0이기 때문에 전력 문제로 이어질 수 있고 (c) 기본적으로 자체적으로 "모델"이 아니기 때문에 나에게 잘못된 느낌이 들었습니다. 두 개의 다른 모델을 순차적으로 실행합니다.
그래서 나는 로지스틱과 제로 잘린 포아송 회귀를 개별적으로 실행하는 것과 비교하여 "허들 모델"을 시도했습니다. 그들은 나에게 똑같은 대답을 주었다 (간결하게하기 위해 출력을 줄임).
> # hurdle output
> summary(pscl::hurdle(y ~ x))
Count model coefficients (truncated poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x 0.7180 0.2834 2.533 0.0113 *
Zero hurdle model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.7772 0.2400 -3.238 0.001204 **
x 1.1173 0.2945 3.794 0.000148 ***
> # separate models output
> summary(VGAM::vglm(y[y > 0] ~ x[y > 0], family = pospoisson()))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x[y > 0] 0.7180 0.2834 2.533 0.0113 *
> summary(glm(I(y == 0) ~ x, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.7772 0.2400 3.238 0.001204 **
x -1.1173 0.2945 -3.794 0.000148 ***
---
양의 카운트 사례를 추정 할 때 관측치가 0이 아닌 확률을 포함하기 때문에 모델의 여러 가지 수학적 표현이 있기 때문에 이것은 나에게 보이지 않습니다. 그러나 위에서 실행 한 모델은 서로 완전히 무시합니다. 예를 들어, 이는 범주 형 및 연속 제한 종속 변수에 대한 Smithson & Merkle의 일반화 선형 모형 의 128 페이지 5 장에 나와 있습니다 .
... 둘째, 가 임의의 값 (0과 양의 정수)을 가정 할 확률은 1과 같아야합니다. 이것은 식 (5.33)에서 보장되지 않습니다. 이 문제를 처리하기 위해 포아송 확률에 Bernoulli 성공 확률 π을 곱합니다 . 이러한 문제는 위의 허들 모델을 여기서 , ,
...λ=EXP(Xβ)π=LOgIt-1(Zγ)X(Z)βγ포아송 모형의 공변량이고 는 로지스틱 회귀 모형의 공변량이며 및 은 각각의 회귀 계수입니다. .
두 모델을 서로 완전히 분리하여 (허들 모델이하는 것처럼 보이는), 가 양수 사례 예측에 어떻게 통합 되는지 알 수 없습니다 . 그러나 두 가지 다른 모델을 실행 하여 함수 를 복제하는 방법에 따라 이 잘린 포아송에서 어떻게 역할을하는지 알 수 없습니다 전혀 회귀. 로짓-1(Z의 γ )hurdle
허들 모델을 올바르게 이해하고 있습니까? 그들은 두 개의 순차적 모델을 실행하는 것처럼 보입니다. 첫째, 물류; 둘째, Poisson은 경우를 완전히 무시 합니다. 비즈니스 와의 혼란을 해소 할 수 있다면 감사하겠습니다 .π를
그것이 허들 모델이 무엇인지 정확하다면, 더 일반적으로 "허들"모델의 정의는 무엇입니까? 서로 다른 두 가지 시나리오를 상상해보십시오.
경쟁력 점수 (1-(우승자의 투표 비율-주자 상승의 투표 비율)를보고 선거 경쟁의 모델링 경쟁력을 상상해보십시오. 관계가 없기 때문에 (0, 1)입니다 (예 : 1). 한 가지 과정이 있기 때문에 여기서 허들 모델이 의미가 있습니다. (b) 그렇지 않다면 경쟁력을 예측 한 것은 무엇입니까? 따라서 먼저 로지스틱 회귀 분석을 수행하여 0과 (0, 1)을 분석합니다. 그런 다음 베타 회귀 분석을 수행하여 (0, 1) 사례를 분석합니다.
전형적인 심리적 연구를 상상해보십시오. 반응은 전통적인 리 커트 척도와 같이 [1, 7]이며, 7에 큰 천장 효과가 있습니다. [1, 7) vs. 관찰 된 반응은 <7입니다.
두 가지 순차적 모델 (첫 번째 경우에는 물류 및 베타, 첫 번째 경우에는 물류, 그런 다음 두 번째에서는 Tobit)로 두 상황을 추정 하더라도이 두 가지 상황을 "허들"모델이라고 부르는 것이 안전 합니까?
pscl::hurdle
하지만 방정식 5에서 다음과 같습니다. cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf 또는 아마도 여전히 클릭 할 수있는 기본 항목이 누락되어 있습니까?
hurdle()
. 우리는 짝 / 비 네트에서보다 일반적인 빌딩 블록을 강조하려고합니다.