음 이항 회귀의 가정은 무엇입니까?

30

나는 큰 데이터 세트 (기밀, 너무 많이 공유 할 수 없음)로 작업하고 있으며 부정적인 이항 회귀가 필요하다는 결론에 도달했습니다. 나는 전에 glm 회귀를 한 적이 없으며 가정이 무엇인지에 대한 명확한 정보를 찾을 수 없습니다. MLR과 동일합니까?

변수를 같은 방식으로 변환 할 수 있습니까 (이미 종속 변수를 변환하는 것이 자연수 여야하기 때문에 나쁜 호출이라는 것을 이미 발견했습니다)? 나는 음의 이항 분포가 내 데이터의과 분산에 도움이 될 것이라고 이미 결정했습니다 (편차는 약 2000, 평균은 48입니다).

도와 주셔서 감사합니다!!

— 칼리
소스

42

대용량 데이터 세트 (기밀 정보이므로 너무 많이 공유 할 수 없음)로 작업하고 있습니다

변수 이름이나 실제 값없이 실제 데이터의 일반적인 특성을 가진 작은 데이터 세트를 작성할 수 있습니다.

부정적인 이항 회귀가 필요하다는 결론에 도달했습니다. 나는 전에 glm 회귀를 한 적이 없으며 가정이 무엇인지에 대한 명확한 정보를 찾을 수 없습니다. MLR과 동일합니까?

분명히 아닙니다! 응답이 조건부로 정상이 아니라 조건부 음 이항이라고 가정한다는 것을 이미 알고 있습니다. ( 일부 가정은 공유됩니다. 예를 들어 독립.)

GLM에 대해 더 일반적으로 이야기하겠습니다.

GLM에는 다중 회귀가 포함되지만 여러 가지 방법으로 일반화됩니다.

1) 반응의 조건부 분포 (종속 변수)는 포아송, 이항, 감마, 정상 및 기타 여러 분포를 포함하는 지수 패밀리 에서 나옵니다.

2) 평균 반응은 링크 함수를 통해 예측 변수 (독립 변수)와 관련이 있습니다 . 각 분포 패밀리에는 관련 정식 링크 기능이 있습니다. 예를 들어 Poisson의 경우 정식 링크는 로그 입니다. 표준 링크는 거의 항상 기본 링크이지만 대부분의 소프트웨어에서는 일반적으로 각 배포 선택 내에서 여러 가지 선택을 할 수 있습니다. 이항의 경우 정규 링크는 로짓입니다 (선형 예측 변수는 모형 , 성공의 로그 홀수 또는 "1") 및 감마의 경우 표준 링크는 반대이지만 두 경우 모두 다른 링크 함수가 종종 사용됩니다. $\log(\frac{p}{1-p})$

따라서 반응이 이고 예측 변수가 이고 이고 로그 링크를 사용한 포아송 회귀 분석을 사용하면 의 평균이 와 어떻게 관련되어 있는지 설명 할 수 있습니다 . $Y$ $X_1$ $X_2$ $Y$ $X$

$\text{E}(Y_i) = \mu_i$

( 는 '선형 예측기'라고하며, 여기서 링크 함수는 이며, 기호 는 종종 링크 함수를 나타내는 데 사용됩니다) $\log\mu_i= \eta_i$ $\eta$ $\log$ $g$

$\eta_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i}$

3) 응답의 분산은 일정하지 않지만 분산 함수 (평균의 함수, 가능한 경우 스케일링 파라미터)를 통해 작동합니다. 예를 들어, 포아송의 분산은 평균과 같지만 감마 의 경우 평균의 제곱에 비례 합니다. (유사 분포를 사용하면 추정 분포에서 분산 함수를 어느 정도 분리 할 수 있습니다)

-

그렇다면 MLR에서 기억하는 것과 공통되는 가정은 무엇입니까?

독립은 여전히 존재합니다.
동종 요법은 더 이상 가정되지 않는다. 분산은 명시 적으로 평균의 함수이므로 일반적으로 예측 변수에 따라 다릅니다 (따라서 모델은 일반적으로이 분산 형이지만이 분산 형은 특정 형태를 취함).
$X\beta$
반응의 분포는 실질적으로 더 일반적입니다

$t$

설정과 같은 'anova-table'을 통한 중첩 모델 간의 비교는 약간 다르지만 비슷합니다 (점근 적 카이-제곱 테스트 포함). AIC와 BIC에 익숙하다면 이것들을 계산할 수 있습니다.

비슷한 종류의 진단 디스플레이가 일반적으로 사용되지만 해석하기가 더 어려울 수 있습니다.

차이를 염두에두면 다중 선형 회귀 직관의 대부분이 이어집니다.

$Y$ $x$

$\text{E}(Y) = \exp(\eta) = \exp(X\beta) = \exp(\beta_0+\beta_1 x)$

$\text{Var}(Y) = \sigma^2$

$Y$ $x$

변수를 같은 방식으로 변환 할 수 있습니까 (이미 종속 변수를 변환하는 것이 자연수 여야하기 때문에 나쁜 호출이라는 것을 이미 발견했습니다)?

일반적으로 응답 (DV)을 변환하고 싶지 않습니다. 때로는 선형 예측 변수의 선형성을 얻기 위해 예측 변수 (IV)를 변환 할 수 있습니다 .

나는 음의 이항 분포가 내 데이터의과 분산에 도움이 될 것이라고 이미 결정했습니다 (편차는 약 2000, 평균은 48입니다).

그렇습니다, 그것은 과대 산포를 다룰 수 있습니다. 그러나 조건부 분산과 무조건 부 분산 을 혼동하지 않도록주의 하십시오 .

또 다른 일반적인 접근 방법-조금 더 어색하고 다소 만족스럽지 않은 경우 유사 포아송 회귀 (과도하게 분산 된 포아송 회귀)입니다.

음수 이항 법을 사용하면 특정 매개 변수 중 하나를 지정하면 지수 군에 속합니다 (일반적으로 GLMS에 대해 적어도 매개 변수가 지정된 방식). 일부 패키지는 매개 변수를 지정하면 적합하며 다른 패키지는 GLM 루틴을 중심으로 해당 매개 변수의 ML 추정 (예 : 프로파일 가능성을 통해)을 래핑하여 프로세스를 자동화합니다. 일부는 더 작은 배포판으로 제한합니다. 어떤 소프트웨어를 사용할지 말하지 않기 때문에 더 많은 것을 말하기가 어렵습니다.

나는 일반적으로 로그 링크가 음의 이항 회귀와 함께 사용되는 경향이 있다고 생각합니다.

기본적인 Poisson GLM과 음의 이항 GLM 데이터 분석을 통해 소개되는 많은 입문 수준의 문서가 있습니다 (Google을 통해 쉽게 찾을 수 있음).하지만 GLM에 대한 책을보고 포아송 회귀를 약간 살펴 보는 것이 좋습니다. 그냥 익숙해 지려고

— Glen_b-복귀 모니카
소스

1

+1 COOLSerdash에 동의합니다. 좋은 정보가 많이 있습니다! 권장되는 Google 검색 외에도 Gujarati의 Example by Econometrics라는 교과서를 추천합니다. 12 장에서는 포아송 회귀 모형과 음 이항 회귀 모형을 다룹니다. 이 책의 제목에서 알 수 있듯이 예가 있습니다. 책에 사용 된 데이터는 책 동반자 웹 사이트에서 구할 수 있으며, 12 장 자체에 대한 요약입니다 . OP가 이것을 확인하는 것이 좋습니다.

— Graeme Walsh

나는 파티에 늦었지만 ...이 답변은 도서관의 전체 도서 스택보다 일반화 된 선형 모델을 더 잘 이해하는 데 도움이되었습니다.

— haff

0

특히 음수 이항 분포 (목록 가정 포함) 및 GLM / GLMM으로 데이터를 분석하는 데 도움이되는 일부 참조는 일반적으로 다음과 같습니다.

베이츠, DM, B. Machler, B. Bolker 및 S. Walker. lme4를 사용하여 선형 혼합 효과 모델 맞추기. J. 통계 소프트웨어 67 : 1-48.

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens 및 J. White. 일반화 선형 혼합 모델 : 생태 및 진화를위한 실용적인 가이드. 생태와 진화의 동향 127-135.

Zeileis A., C. Keleiber C 및 S. Jackman 2008. RJ Stat의 카운트 데이터에 대한 회귀 모델. 소프트웨어. 27 : 1 ~ 25

Zuur AF, EN Iene, N. Walker, AA Saveliev 및 GM Smith. 2009. R. Springer, NY, USA와의 혼합 효과 모델 및 확장.

— 토드 존슨
소스