주어진 샘플이 푸 아송 분포에서 추출되는지 어떻게 테스트 할 수 있습니까?


답변:


18

우선 내 조언은 데이터와 마찬가지로 포아송 분포를 시도하지 말아야한다는 것입니다. 포아송 분포가 왜 특정 데이터 세트 나 현상에 적합해야하는지에 대한 이론을 먼저 만들어야한다고 제안합니다.

이것을 설정하고 나면 다음 질문은 분포가 동질인지 아닌지입니다. 이는 데이터의 모든 부분이 동일한 포아송 분포에 의해 처리되는지 또는 시간 또는 공간과 같은 일부 측면에 따라 변동이 있는지 여부를 의미합니다. 이러한 측면을 확인한 후 다음 세 가지 테스트를 시도하십시오.

  1. 카이 제곱 변수를 사용한 우도 비 검정
  2. 조건부 카이 제곱 통계량 사용; 포아송 분산 테스트 또는 분산 테스트라고도 함
  3. 포아송 변수의 분산 안정화 변환을 기반으로하는 neyman-scott 통계량 사용

이것들을 검색하면 인터넷에서 쉽게 찾을 수 있습니다.


3
"분포가 균질한지 아닌지 ... 일단 이러한 측면을 확신했다면"이것을 어떻게 결정할 수 있을까요?
의미 수단

13

다음은 도움이 될 수있는 일련의 R 명령입니다. 실수를 발견하면 의견을 말하거나 편집하십시오.

set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.

hist(x.poi,main="Poisson distribution")

lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies


freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]]  ## vector of emprical frequencies

freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies

acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index

h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")

#Perform the chi-square goodness of fit test 
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")

3
freq.ex <-(dpois (0 : max (x.poi), lambda = lambda.est) * 200)는 freq.ex의 길이가 freq와 일치하지 않기 때문에 일부 실제 데이터에서 오류를 생성합니다. 이 줄의 obs acc <-mean (abs (freq.os-trunc (freq.ex))). 이 줄을 freq.ex <-(dpois (seq (0, max (x.poi)) [seq (0 : max (x.poi)) % in % x.poi], lambda = lambda.est) * 200) 그러나 이익이 경고를 생성하기 때문에 여전히 뭔가가 올바르지 않습니다.
russellpierce

귀하의 코드를 사용하여 121의 적합 지수를 얻습니다. 그러나 상대적입니까? 0에서 100 사이 여야합니다.
MERose


5

포아송은 1의 분산을 제공해야하기 때문에 분산 (평균에 대한 분산의 비율)을 검정 통계량으로 사용할 수 있습니다. 여기 에서는 모형 분산 으로 사용하는 방법에 대한 링크 가 있습니다.


+1 감사합니다. 예를 들어 정규 분포는 람다가 상대적으로 작은 포아송보다 높은 p- 값을 얻습니다 (따라서 보통과 포아송은 전혀 비슷하지 않습니다)
David B

6
404 찾을 수 없음!!
Rodrigo

5

푸 아송 분포의 경우 평균은 분산과 같습니다. 표본 평균이 표본 분산과 매우 다른 경우 포아송 데이터가 없을 수 있습니다. 여기에 언급 된 분산 테스트는 해당 개념의 공식화입니다.

일반적인 경우와 같이 분산이 평균보다 훨씬 큰 경우 다음에 음의 이항 분포를 시도 할 수 있습니다.


5
평균이 분산과 같은 경우 데이터가 포아송이라고 결론 내릴 수 있습니까? 거의!
PeterR

참된. 필요하지만 충분하지 않습니다.
John D. Cook

2

관측 및 예상 주파수가 나란히 그려지는 단일 그림을 그릴 수 있습니다. 분포가 매우 다르고 분산 평균 비율이 1보다 큰 경우 바람직한 후보는 음 이항입니다. 섹션 읽기 주파수 분포 에서을 The R Book. 매우 비슷한 문제를 다룹니다.


1

주요 요점은 sidmaestro가 제기하는 것입니다 ... 실험 설정 또는 데이터 생성 메커니즘이 데이터가 Poisson 분포에서 발생할 수 있다는 전제를 지원합니까?

배포 가정에 대한 테스트를 좋아하는 팬은 아닙니다. 그 테스트는 일반적으로 그다지 유용하지 않기 때문입니다. 나에게 더 유용한 것은 일반적으로 추론의 목적으로 모델의 편차에 대해 유연하고 합리적으로 강력한 분포 또는 모델 가정을 만드는 것입니다. 내 경험상 평균 = 분산을 보는 것이 일반적이지 않으므로 종종 이항 모형이 더 적합 해 보이고 포아송을 특별한 경우로 포함합니다.

분포 테스트를 진행하는 데 중요한 또 다른 요점은 원하는 경우 관찰 된 분포를 다른 분포의 혼합으로 만드는 지층이 없는지 확인하는 것입니다. 개별 지층 별 분포는 포아송처럼 보일 수 있지만 관찰 된 혼합물은 그렇지 않을 수 있습니다. 회귀 분석과 유사한 상황 은 Y | X 의 조건부 분포가 실제로 분포되고 실제로는 Y 자체의 분포가 아니라고 가정합니다.


회귀에 대한 마지막 요점은 X가 임의 인 경우에만 적용됩니다. X가 고정되면 Y도 정상입니다. 아니?

예, 이것은 사실이지만 일반적인 회귀 문제 (아 노바 또는 설계 문제와 반대)의 경우 X는 실제로 고정되어 있지 않지만 기본 프로세스의 관측치입니다. 그러나 포아송의 경우, 포아송의 혼합물이 반드시 포아송 인 것은 아니기 때문에 요점은 여전히 ​​유효합니다.
Abhijit

0

이것을 테스트하는 또 다른 방법은 Quantile Quantile 플롯을 사용하는 것입니다. R에는 qqplot이 있습니다. 평균과 sd가 비슷한 정규 분포에 대한 값을 직접 플로팅합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.