모델링하려는 이중 피크가있는 데이터가 있으며, 피크를 독립적으로 처리 할 수없는 피크간에 충분한 겹침이 있습니다. 데이터의 히스토그램은 다음과 같습니다.
이를 위해 두 가지 모델을 만들었습니다. 하나는 두 개의 포아송 분포를 사용하고 다른 하나는 두 개의 음 이항 분포를 사용합니다 (과대 산포를 설명하기 위해). 어떤 모델이 데이터에 더 잘 맞는지를 알 수있는 적절한 방법은 무엇입니까?
저의 초기 생각은 Kolmogorov-Smirnov 검정을 사용하여 각 모형을 데이터와 비교 한 다음 우도 비율 검정을 수행하여 모형이 유의하게 더 적합한 지 확인할 수 있다는 것입니다. 이게 말이 되요? 그렇다면 가능성 비율 검정을 수행하는 방법을 정확히 모르겠습니다. 카이 제곱이 적절하고 얼마나 많은 자유도가 있습니까?
도움이된다면 모델에 대한 일부 (매우 단순화 된) R 코드는 다음과 같습니다.
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
편집 : 여기에 데이터와 분포가 더 잘 설명되어있는 이미지가 있습니다. 과 분산을 설명하기 위해 음의 이항 거리를 사용하는 두 번째 모델이 더 적합하다는 것은 시각화에서 완전히 분명합니다. 그래도 이것을 정량적으로 보여주고 싶습니다.
(빨간색-데이터, 녹색-모델)