음 이항 / 포아송 회귀에서 과분 산과 과소 산포

SAS에서 포아송 회귀 분석을 수행 한 결과 자유 도로 나눈 Pearson 카이 제곱 값이 약 5 인 것으로 나타났습니다. 이는 상당한과 분산을 나타냅니다. 그래서, 나는 proc genmod를 가진 음 이항 모델에 적합하고 Pearson 카이 제곱 값을 자유 도로 나눈 값은 0.80이라는 것을 알았습니다. 이것이 현재 분산되어 있지 않은 것으로 간주됩니까? 그렇다면 어떻게 처리합니까? 과대 산포에 대해 많이 읽었으며 이것을 처리하는 방법을 알고 있지만 과소 산포가 있는지 여부를 처리하거나 결정하는 방법에 대한 정보는 믿습니다. 누구든지 도울 수 있습니까?

감사.

regression binomial underdispersion

— 통계 학생
소스

이 논문은 관심이있을 수 있습니다 : Quasi-Poisson vs. 음 이항 회귀 : 어떻게 Ovedispersed 카운트 데이터를 모델링해야합니까? (Ver Hoef & Boveng, 2007) .

— Avraham

평균이 포아송 분포의 경우 분산도 입니다. 일반화 된 선형 모형의 프레임 워크 내에서 이것은 분산 함수 가 푸 아송 모형의 임을 의미합니다 . 이 모델 가정은 여러 가지 이유로 잘못 될 수 있습니다. 예를 들어, 포아송 분포가 나타내는 것보다 더 큰 분산을 갖는과 분산 카운트 데이터가 종종 발생합니다. $\mu$ $\mu$

V (μ) = μ

$V(\mu) = \mu$

분산 가정에서 벗어난 편차는 회귀 컨텍스트에서 여러 가지 형태를 취할 수 있습니다. 간단한 한 분산 기능이 동일하다는 것이다 와 분산액 파라미터 . 이것은 준-포아송 모델입니다. 동일한 적합 회귀 모델을 제공하지만 추정 된 분산 모수를 사용하여 과대 산포 또는 과소 산포에 대해 통계적 추론 ( 및 신뢰 구간)이 조정됩니다.

V (μ) = ψ μ

$V(\mu) = \psi \mu$

ψ > 0

$\psi > 0$

p

$p$

분산 함수의 기능적 형태도 잘못 될 수 있습니다. 2 차 다항식 수 있습니다. 예에는 이항, 음 이항 및 감마 모델이 포함됩니다. 포아송 모델에 대한 대안으로 이러한 모델 중 하나를 선택하면 적합 된 회귀 모델과 후속 통계 추론에 영향을 미칩니다. 모양 모수 음 이항 분포의 경우 분산 함수는 이것으로부터 이면 Poisson 분포에 대한 분산 함수를 얻는다는 것을 알 수 있습니다.

V (μ) = ㅏ μ^{2} + 비 μ + 씨,

$V(\mu) = a\mu^2 + b \mu + c,$

λ > 0

$\lambda > 0$

V (μ) = μ (1 + \frac{μ}{λ}) .

$V(\mu) = \mu\left( 1 + \frac{\mu}{\lambda}\right).$

λ \to \infty

$\lambda \to \infty$

포아송 모델의 분산 함수가 데이터에 적합한 지 확인하기 위해 OP가 제안한대로 분산 매개 변수를 추정하고 대략 1인지 (아마 공식 테스트를 사용하여) 확인할 수 있습니다. 이러한 테스트는 특정 대안을 제시하지는 않지만 준-포아송 모델 내에서 가장 명확하게 이해됩니다. 분산 함수의 기능적 형태가 적절한 지 테스트하기 위해, 이항 모형 ( ) 에 대한 포아송 모형 ( ) 의 우도 비 검정을 구성 할 수 있습니다. 귀무 가설 하에서 비표준 분포를 갖습니다. 또는 중첩되지 않은 모델을 비교하기 위해 일반적으로 AIC 기반 방법을 사용할 수 있습니다. 포아송 모형의과 분산에 대한 회귀 기반 검정 $\lambda = \infty$ $\lambda < \infty$ 일반 분산 함수에 대한 테스트 클래스를 탐색합니다.

그러나 먼저 모든 연구 잔차 그림, 예를 들어 Pearson 또는 이탈 잔차 (또는 해당 값의 제곱 값) 그림을 권장합니다. 분산의 기능적 형태가 잘못된 경우 잔차 그림에서이를 깔때기 모양 (또는 잔차 제곱의 추세)으로 볼 수 있습니다. 기능적 형태가 올 바르면 (즉, 깔때기 나 추세가없는 경우) 여전히 과다 또는 과소 산포가있을 수 있지만 분산 모수를 추정하여이를 설명 할 수 있습니다. 잔차 그림의 이점은 분산 함수에 어떤 문제가 있는지 테스트보다 더 명확하게 제안한다는 것입니다.

OP의 구체적인 경우 0.8이 주어진 정보로부터 과소 산포를 나타내는 지 여부는 말할 수 없다. 5 및 0.8 추정치에 중점을 두는 대신 우선 포아송 모형과 마이너스 이항 모형의 분산 함수의 적합도를 조사하는 것이 좋습니다. 분산 함수의 가장 적절한 기능적 형태가 결정되면, 필요에 따라 분산 파라미터를 임의의 모델에 포함시켜 추가적인 과다 또는 과소 산포에 대한 통계적 추론을 조정할 수 있습니다. SAS에서이를 쉽게하는 방법은 불행히도 내가 도울 수있는 일이 아니다.

— NRH
소스

+1, 이것은 일반적인 정보입니다. OP의 명시 적 질문에 구체적으로 언급 한 경우 OP에 더 도움이 될 수 있습니다. (1) 0.8 미만입니다. & (2) 그렇다면, 어떻게 다루는가.

— gung-복직 모니카

@ gung, 더 구체적인 조언을 제공하기 위해 답변을 편집했습니다. 사용 가능한 정보에서 0.8이 1보다 현저히 작은 지 여부를 확인할 수 없으며 분산 매개 변수가 1인지에 초점을 둔 IMHO는 우회입니다. 내 편집은 OP가 대신 집중해야 할 사항을 설명합니다.

— NRH