유사 이항 분포는 무엇입니까 (GLM의 맥락에서)?


30

나는 quasibinomial 분포가 무엇인지, 그리고 그것이 무엇인지에 대한 직관적 인 개요를 누군가가 제공 할 수 있기를 바랍니다. 특히 다음 사항에 관심이 있습니다.

  1. 유사 이항 분포가 이항 분포와 어떻게 다른가?

  2. 반응 변수가 비율 인 경우 (예 : 값에 0.23, 0.11, 0.78, 0.98 포함) 준이 항 모델은 R에서 실행되지만 이항 모델은 그렇지 않습니다.

  3. TRUE / FALSE 응답 변수가 과대 산포 될 때 준 바이 노미 얼 모델을 사용해야하는 이유.

답변:


20
  1. 이항 분포와 유사 이항 분포의 차이는 이러한 분포를 특징 짓는 확률 밀도 함수 (pdf)에서 볼 수 있습니다.

    이항 pdf :

    P(X=k)=(nk)pk(1p)nk

    유사 이항 pdf :

    P(X=k)=(nk)p(p+kϕ)k1(1pkϕ)nk

    준이 항 분포는 이항 분포와 유사하지만 설명을 시도 하는 추가 매개 변수 ϕ ( |ϕ|min{p/n,(1p)/n} )를 갖습니다. 이항 분포만으로는 설명 할 수없는 데이터의 추가 분산.

    (참고 준 이항 분포의 평균 인 것을 보다는 자체).pi=0nn!ϕi(nk)!p

  2. 확실하지 않습니다. 아마도 R의 glm 함수가 이것을 설명하기 위해 유사 모드에서 가중치를 추가합니까?

  3. 추가 매개 변수 의 목적은 데이터의 추가 분산을 추정하는 것입니다. 모든 일반화 선형 모형 (GLM)은 결과 / 응답에 대한 분포 가정을하고이 분포를 기반으로 데이터의 가능성을 최대화합니다. 분석가가 선택하는 선택이며 데이터에서 더 많은 차이를 고려해야 할 필요가 있다고 생각되면 준이 항적 차이를 선택하여 glm에 대한 반응을 모델링 할 수 있습니다. 이항 대신 준이 항 모델을 피팅해야하는지 테스트하는 가장 좋은 방법은 이항 모델을 피팅하고 매개 변수가 0 인지 테스트하는 것 입니다.ϕϕ


2
훌륭한 Alejandro, 이제 ϕ 매개 변수가 0인지 어떻게 테스트 할 수 있습니까?
Juanchi

2
참고로 그 R와 함께 glm.fit, binomialquasibinomial그 이외에는, 정확히 동일하다 quasibinomial(1) 정수 검사를 제거하고, (2)의 NA AIC를 반환한다. 자세한 내용은 이 답변 을 참조하십시오.
miguelmorin

-1 이런 종류의 "이차 이항"분포는 glm의 맥락에서 유사 이항 가능성과 완전히 관련이없는 것처럼 보이므로 왜 그렇게 많은지지를 얻었는지 알기가 어렵습니다.
Jarle Tufto

14

준이 항은 반드시 특정한 분포는 아닙니다. 이항 평균에 대한 이항 분산의 곱하기 인 일반화 된 선형 모델에서 분산과 평균 간의 관계에 대한 모델을 설명합니다 .ϕ

그러한 사양 (확실한 것-스케일 이항)에 맞는 분포가 있지만 준이 항 모델이 적합 할 때 반드시 목표는 아닙니다. 여전히 0-1 인 데이터에 적합하면 이항을 조정할 수 없습니다.

따라서 매개 변수 를 통한 유사 이항 분산 모델은 이항 데이터보다 큰 분산 (또는 아마도 작은)의 데이터를 더 잘 처리 할 수 ​​있지만 반드시 실제 분포는 아닙니다. .ϕ

반응 변수가 비율 인 경우 (예 : 값에 0.23, 0.11, 078, 0.98 포함) 준이 항 모델은 R에서 실행되지만 이항 모델은 그렇지 않습니다.

내가 기억하기 위해 이항 모델은 비율 *로 R에서 실행될 수 있지만 올바르게 설정해야합니다.

내가 알고있는 R에 이항 데이터를 제공하는 세 가지 방법이 있습니다. 그 중 하나라고 확신합니다.


이것은 유사 가능성 추정과 어떤 관련이 있습니까?
tim.farkas

2
+1 (하지만 더 포괄적 인 답변을보고 싶습니다!). 이항 GLM을 비율로 설정하는 세 가지 방법은 다음과 같습니다. stats.stackexchange.com/a/26779/28666 ? 링크가 도움이 될 수 있습니다. 또한, 실제로 분포가 아니라 "quasibinomial"에 대해 말한 내용이이 글타래의 두 번째 답변과 어떻게 관련이 있습니까?
amoeba는

1
@amoeba 내 대답 (확장 이항)에 명시된 것처럼 분포를 쓸 수 있지만 카운트 데이터 (분산 변수가 1이 아닌 한 모든 정수에있는 것은 아닙니다) 또는 연속 데이터 ( 별개입니다!). 사람들은 일반적으로 분산 구조로 인해 카운트 데이터에 사용합니다 (그러나이 경우 지수 패밀리에는 그러한 분포가 없습니다)
Glen_b -Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.