자르지 않은 음수 이항 GEE 용 R / Stata 패키지?


13

이것은 나의 첫 번째 게시물입니다. 이 커뮤니티에 진심으로 감사드립니다.

0으로 잘린 종단 반응 (응답 변수 = 0이 될 확률)과 평균! = 분산을 분석하려고하므로 포아송보다 음의 이항 분포가 선택되었습니다.

내가 배제한 기능 / 명령 :

아르 자형

  • R의 gee () 함수는 제로 잘림이나 음의 이항 분포를 고려하지 않습니다 (MASS 패키지가로드 된 경우에도)
  • R의 glm.nb ()는 다른 상관 관계 구조를 허용하지 않습니다.
  • VGAM 패키지의 vglm ()은 posnegbinomial 제품군을 사용할 수 있지만 Stata의 ztnb 명령 (아래 참조)과 동일한 문제가 있습니다.

스타 타

  • 데이터가 종단이 아닌 경우 Stata 패키지 ztnb를 사용하여 분석을 실행할 수 있지만 해당 명령은 내 관측치가 독립적이라고 가정합니다.

또한 다양한 방법 론적 / 철학적 이유로 GLMM을 배제했습니다.

지금은 Stata의 xtgee 명령에 동의했습니다. xtgee 사용의 추가 이점은 qic 값 (qic 명령 사용)을 계산하여 응답 변수에 가장 적합한 상관 관계 구조를 결정할 수도 있다는 것입니다.

R 또는 Stata에 1) nbinomial 제품군, 2) GEE 및 3) 잘림을 고려할 수있는 패키지 / 명령이 있으면 알고 싶지 않습니다.

당신이 가질 수있는 아이디어를 대단히 감사하겠습니다. 감사합니다.

케이스

답변:


12

R의 경우 두 가지 옵션이 떠 오릅니다. 두 가지 모두 막연하게 익숙합니다.

첫 번째 pscl패키지 는 잘린 팽창 식 및 허들 모델에 아주 훌륭하고 유연한 방식으로 맞출 수 있는 패키지 입니다. 이 pscl패키지 sandwich는 "단면, 시계열 및 종 방향 데이터에 대한 모델-강력 표준 오류 추정기"를 제공 하는 패키지 의 사용을 제안합니다 . 따라서 카운트 모델에 맞는 다음 sandwich패키지를 사용 하여 데이터의 세로 특성을 고려한 잔차에 대한 적절한 공분산 행렬을 추정 할 수 있습니다.

두 번째 옵션은 geepackR glm()함수가 할 수 있는 모든 유형의 GLM에 적합하기 때문에 세타가 알려진 음수 이항 모델에 대해서만 원하는 것을 할 수있는 것처럼 보이는 패키지를 보는 것입니다 (따라서 MASS의 패밀리 함수 사용) .

세 번째 옵션은 머리를 높이고 gamlss추가 기능 패키지 gamlss.tr입니다. 후자는 유연한 방식으로 gen.trun()지원되는 gamlss()분포를 잘린 분포로 바꿀 수 있는 기능 을 포함합니다 . 예를 들어 0 음 이항 분포에서 잘린 왼쪽을 지정할 수 있습니다. gamlss()그 자체에는 데이터의 세로 특성을 처리해야하는 임의의 효과에 대한 지원이 포함됩니다. 그러나 모델에서 공변량의 하나 이상의 부드러운 함수를 사용해야하거나 GLM에서와 같이 선형 함수로 모든 것을 모델링 할 수 있는지 여부는 즉시 명확하지 않습니다.


pscl 패키지는 제로 팽창 및 허들 모델에만 적합하다고 생각합니다. 장애물 모델에는 왼쪽 잘린 개수 구성 요소와 오른쪽 검열 된 장애물 구성 요소가 모두 포함됩니다. 허들 구성 요소없이 허들 모델을 실행할 수는 있지만 어떻게하지 않더라도 샌드 윅 패키지를 살펴볼 것입니다. geepack 패키지는 gee 패키지와 같은 문제가있는 것 같습니다. 세타를 지정하지 않고 "MASS의"negative.binomial "제품군을 지정하면 세타를 요구합니다. 그러나 세타 값을 지정하면 인식 할 수없는 가족이라는 오류가 발생합니다.
Iris Tsui

@Casey-귀하의 요구 사항을 다시 0으로 자르면 죄송합니다. geepack이 그 가족 기능으로 작동하지 않는다는 것이 부끄러운 일입니다. 다른 것을 생각하면 여기에서 업데이트하겠습니다.
복원 모니카-G. 심슨

@Casey gamlssR의 청구서에 맞는 패키지 에 대한 메모를 추가했습니다 .
복원 모니카-G. 심슨

이해력을 향상시킨 리소스 및 기능에 대한 여러 제안으로 인해 귀하의 답변을 받아들입니다. 'gamlss'가 내 문제를 해결할 수있는 방법 인 것처럼 보이지만 실제로는 통계가 아니기 때문에 현재 수학에 대한 배경 지식이나 웜의 수를 열 시간이 없습니다 (그러나 어쩌면 내가 할 것이다). 다른 의견에서 언급했듯이 적어도 내 데이터의 경우 잘림을 무시하는 것이 내 추정치와 표준 오류를 크게 변경하지 않는 것으로 보입니다. 내 의도 된 청중들에게, 나는 nbinomial GEE가 잘 될 것이라고 믿는다. 감사!
Iris Tsui

9

흠, 좋은 첫 질문! 정확한 요구 사항을 충족하는 패키지를 모릅니다. Huber-White 표준 오류를 제공 하는 옵션을 지정 하거나 실용적인 경우 Stata의 xtgee 가 좋은 선택 이라고 생각 합니다. 이러한 옵션 중 하나를 사용하면 절단없이 영점을 무시하여 모델이 잘못 지정 되었음에도 불구하고 표준 오류를 일관되게 추정 할 수 있습니다.vce(robust)vce(bootstrap)

그것은 제로 잘림을 무시하는 것이 당신의 관심 포인트 추정에 어떤 영향을 미칠지에 대한 질문을 남깁니다. GEE와 관련하여 일반적으로 관련 문헌이 있는지 확인하는 것이 좋습니다. 나는 그러한 결과가 GEE 사례와도 관련이 있다고 가정 할 수 있다고 생각했을 것입니다. 아무것도 찾을 수없는 경우 항상 제로 잘림 및 알려진 효과 추정값으로 데이터를 시뮬레이션하고 시뮬레이션으로 바이어스를 평가할 수 있습니다.


1
강력한 표준 오류를 추정했습니다. 또한 Zuur 등 (2009)의 261쪽에있는 "R과의 혼합 효과 모델 및 확장"책에서 "응답 변수의 평균이 상대적으로 크면 잘림 문제를 무시한 다음 포아송 또는 음 이항 (NB) 일반 선형 모형 (GLM)은 문제를 일으키지 않을 것입니다. " 다행히도 내 반응 변수의 수단이 크므로 GEE 및 회귀의 음이 아닌 측면에 비해 제로 자르기 우선 순위를 약간 더 편안하게 느낍니다.
Iris Tsui

나보다이 주제에 대해 이미 알고있는 것 같습니다. 또는이 사이트의 다른 사용자는 다른 응답이 없다고 판단합니다.
onestop

조금 믿기지 않습니다. 과도하게 분산 된 종단 카운트 데이터를 분석하기가 너무 어렵다는 것을 누가 알았습니까 (GLMM을 수행하지 않고서도 아직 조사하지 않았 음)? 내 데이터 만 제로 팽창되면 다른 이야기가 될 것입니다.
Iris Tsui

5

논문에서도 같은 문제가있었습니다. Stata에서는 방금 xtgee를 두 번 호출하여 맞춤형 .ado 프로그램을 만들었습니다.

이를 위해 Partha Deb, Willard Manning 및 Edward Norton 의 "모델링 건강 관리 비용 및 수" 슬라이드 / 프로그램이 유용하다는 것을 알았습니다 . 세로 데이터에 대해서는 언급하지 않지만 유용한 출발점입니다.


1

glmmADMB 해석에 대한 답변을 찾고 있었고 귀하의 게시물을 보았습니다. 나는 그것이 오래 전에 알고 있지만 대답이있을 수 있습니다.

허들 모델을 사용할 때 패키지 glmmADMB를 살펴보십시오. 데이터 분석은 두 가지로 나눠야합니다. 그 중 하나는 0이 아닌 데이터 만 처리합니다. 혼합 효과를 추가하고 분포를 선택할 수 있습니다. 조건은 데이터가 0으로 팽창해야하며 이것이 귀하의 요구 사항에 맞는지 모르겠습니다! 어쨌든, 나는 당신이 오래 전에 알게되기를 바랍니다!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.