답변:
우선 내 조언은 데이터와 마찬가지로 포아송 분포를 시도하지 말아야한다는 것입니다. 포아송 분포가 왜 특정 데이터 세트 나 현상에 적합해야하는지에 대한 이론을 먼저 만들어야한다고 제안합니다.
이것을 설정하고 나면 다음 질문은 분포가 동질인지 아닌지입니다. 이는 데이터의 모든 부분이 동일한 포아송 분포에 의해 처리되는지 또는 시간 또는 공간과 같은 일부 측면에 따라 변동이 있는지 여부를 의미합니다. 이러한 측면을 확인한 후 다음 세 가지 테스트를 시도하십시오.
이것들을 검색하면 인터넷에서 쉽게 찾을 수 있습니다.
다음은 도움이 될 수있는 일련의 R 명령입니다. 실수를 발견하면 의견을 말하거나 편집하십시오.
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
푸 아송 분포의 경우 평균은 분산과 같습니다. 표본 평균이 표본 분산과 매우 다른 경우 포아송 데이터가 없을 수 있습니다. 여기에 언급 된 분산 테스트는 해당 개념의 공식화입니다.
일반적인 경우와 같이 분산이 평균보다 훨씬 큰 경우 다음에 음의 이항 분포를 시도 할 수 있습니다.
주요 요점은 sidmaestro가 제기하는 것입니다 ... 실험 설정 또는 데이터 생성 메커니즘이 데이터가 Poisson 분포에서 발생할 수 있다는 전제를 지원합니까?
배포 가정에 대한 테스트를 좋아하는 팬은 아닙니다. 그 테스트는 일반적으로 그다지 유용하지 않기 때문입니다. 나에게 더 유용한 것은 일반적으로 추론의 목적으로 모델의 편차에 대해 유연하고 합리적으로 강력한 분포 또는 모델 가정을 만드는 것입니다. 내 경험상 평균 = 분산을 보는 것이 일반적이지 않으므로 종종 이항 모형이 더 적합 해 보이고 포아송을 특별한 경우로 포함합니다.
분포 테스트를 진행하는 데 중요한 또 다른 요점은 원하는 경우 관찰 된 분포를 다른 분포의 혼합으로 만드는 지층이 없는지 확인하는 것입니다. 개별 지층 별 분포는 포아송처럼 보일 수 있지만 관찰 된 혼합물은 그렇지 않을 수 있습니다. 회귀 분석과 유사한 상황 은 Y | X 의 조건부 분포가 실제로 분포되고 실제로는 Y 자체의 분포가 아니라고 가정합니다.
이것을 테스트하는 또 다른 방법은 Quantile Quantile 플롯을 사용하는 것입니다. R에는 qqplot이 있습니다. 평균과 sd가 비슷한 정규 분포에 대한 값을 직접 플로팅합니다.