음 이항 분포 내부의 모수 이해


37

나는 다양한 모델로 내 데이터에 적합하고 있음을 파악하려고했다 fitdistr라이브러리 함수 MASS의이 R저를주는 Negative Binomial가장 적합한다. 이제 위키 페이지에서 정의는 다음과 같습니다.

NegBin (r, p) 분포는 마지막 시험에서 성공한 k + r Bernoulli (p) 시험에서 k 실패 및 r 성공 확률을 설명합니다.

R모델 피팅을 수행하는 데 사용하면 두 개의 매개 변수 mean와가 제공 dispersion parameter됩니다. 위키 페이지에서 이러한 매개 변수를 볼 수 없기 때문에 이것을 해석하는 방법을 이해하지 못합니다. 내가 볼 수있는 것은 다음 공식입니다.

음 이항 분포 공식

k관측치의 수는 어디 입니까 r=0...n? 이제 이것들에 의해 주어진 매개 변수와 어떻게 관련이 R있습니까? 도움말 파일도 많은 정보를 제공하지 않습니다.

또한 내 실험에 대해 몇 마디 말하려고합니다. 제가 수행하고있는 사회적 실험에서 10 일 동안 각 사용자가 연락 한 사람들의 수를 세려고했습니다. 실험의 모집단 크기는 100이었다.

이제 모형이 음 이항에 적합하면, 그 분포를 따른다고 맹목적으로 말할 수는 있지만 이것 뒤에있는 직관적 인 의미를 정말로 이해하고 싶습니다. 테스트 대상과 접촉 한 사람들의 수가 음의 이항 분포를 따른다는 것은 무엇을 의미합니까? 누군가 이것을 명확히하는 데 도움을 줄 수 있습니까?

답변:


42

NB의 Wikipedia 기사에서 "감마-포아송 혼합물"이라고 자세히 살펴보아야 합니다. 동안 나는 일반적으로 당신이 얻을 때까지 동전을 플립한다고 가정 "등의 클래스를 정의하기 때문에"동전 뒤집기 "정의를 호출하면 인용 정의 (kheads ")는 도입 가능성이 높고 소개 확률 또는 수학적 통계 컨텍스트에서 더 의미가 있습니다. 감마-포아송 혼합물은 (내 경험상) 적용된 컨텍스트의 분포에 대해 훨씬 일반적으로 유용한 방법입니다. 이 정의는 분산 / 크기 매개 변수의 정수가 아닌 값을 허용합니다.)이 문맥에서, 분산 매개 변수는 데이터의 기초가되는 가상 감마 분포의 분포를 설명하고 본질적인 접촉 수준에서 개인들 사이에 관찰되지 않은 변동을 설명합니다. 이것은 감마의 모양 매개 변수이며, 모양 매개 변수가 감마 분포의 변동 계수 가 임을 알면 도움이 될 수 있습니다 .θ1/θθ 잠상 가변성 사라지고 커져 포아송 분포에 접근한다.


7
흠. 난 왜 downvote 궁금해?
벤 볼커

NB (평균, 분산) 공식은 이제 해당 위키 페이지 의 대체 공식 ( en.wikipedia.org/wiki/… ) 섹션에 설명되어 있습니다.
mt1022

10

이전 게시물에서 언급했듯이 분포를 조정하여 데이터를 계산하는 데 집중하고 있습니다. 여기 내가 배운 것들이 있습니다 :

분산이 평균보다 크면 과분 산이 분명하므로 음의 이항 분포가 적합합니다. 분산과 평균이 같으면 포아송 분포가 제안되고 분산이 평균보다 작 으면 권장되는 이항 분포입니다.

작업중인 카운트 데이터를 사용하여 R의 음수 이항 함수의 "생태"매개 변수화를 사용하고 있습니다. 다음 무료로 이용할 수있는 다음 책의 4.5.1.3 (페이지 165) 섹션에서 이에 대해 구체적으로 설명합니다 (문맥에서) 의 R, 적어도!) 그리고 나는 당신의 질문 중 일부를 해결할 수 있기를 바랍니다.

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

데이터가 0으로 잘린다는 결론을 내린다면 (즉, 0 개의 관측 확률은 0 임) R VGAM 패키지 에있는 NBD의 0으로 잘린 맛을 확인하는 것이 좋습니다 .

적용 예는 다음과 같습니다.

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

도움이 되길 바랍니다.


이 책의 165 쪽.
SmallChess
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.