두 분포를 결합한 모형에서 적합도 측정


9

모델링하려는 이중 피크가있는 데이터가 있으며, 피크를 독립적으로 처리 할 수없는 피크간에 충분한 겹침이 있습니다. 데이터의 히스토그램은 다음과 같습니다.

대체 텍스트

이를 위해 두 가지 모델을 만들었습니다. 하나는 두 개의 포아송 분포를 사용하고 다른 하나는 두 개의 음 이항 분포를 사용합니다 (과대 산포를 설명하기 위해). 어떤 모델이 데이터에 더 잘 맞는지를 알 수있는 적절한 방법은 무엇입니까?

저의 초기 생각은 Kolmogorov-Smirnov 검정을 사용하여 각 모형을 데이터와 비교 한 다음 우도 비율 검정을 수행하여 모형이 유의하게 더 적합한 지 확인할 수 있다는 것입니다. 이게 말이 되요? 그렇다면 가능성 비율 검정을 수행하는 방법을 정확히 모르겠습니다. 카이 제곱이 적절하고 얼마나 많은 자유도가 있습니까?

도움이된다면 모델에 대한 일부 (매우 단순화 된) R 코드는 다음과 같습니다.

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

편집 : 여기에 데이터와 분포가 더 잘 설명되어있는 이미지가 있습니다. 과 분산을 설명하기 위해 음의 이항 거리를 사용하는 두 번째 모델이 더 적합하다는 것은 시각화에서 완전히 분명합니다. 그래도 이것을 정량적으로 보여주고 싶습니다. 대체 텍스트

(빨간색-데이터, 녹색-모델)


각 구간 에있는 값의 확률 분포를 알고 있습니까? y 축 레이블은 이것이 포아송 또는 다항식 일 수 있다고 생각합니다. (모델이 각 빈에 평균을 제공한다고 가정)
Andre Holzner

데이터는 본질적으로 두 개의 Poisson 프로세스에서 가져 오지만 수정할 수없는 숨겨진 변수가있어 과대 산포가 발생합니다. 따라서 음 이항은 확실히 더 나은 모델입니다. (위에 추가 한 새 이미지 / 텍스트 참조). 내 nb 모델이 정량적으로 더 적합하다는 것을 보여 주어야합니다.
chrisamiller

1
실제 값과 예측 값 사이의 평균 제곱 오류와 같은 메트릭은 어떻습니까?

hrmm-나는 그 아이디어를 좋아한다, Srikant. 내가 생각했던 것보다 훨씬 간단하지만 여전히 의미가 있습니다. 아래 답변을 작성하여 크레딧을 작성하고 담당자에게 보내십시오. 나는 여전히 다른 방법을 듣는 데 관심이 있지만 지금은 효과가 있습니다.
chrisamiller

답변:


4

실제 값과 예측 된 값 사이의 평균 제곱 오류 와 같은 메트릭을 사용 하여 두 모델을 비교할 수 있습니다.


1
Glen_b의 답변이 더 많은 것을 배우는 데 도움이되었지만 이것은 내 특정 상황에 대한 정답이었습니다. 그를 위해 더 많은지지를했고 Srikant에 대한 대답을 받아 들였습니다 모두가 이깁니다-모두 감사합니다.
chrisamiller

8

음 이항에 더 많은 매개 변수가 있으므로 직접 비교할 수 없습니다. 실제로 포아송은 음수 이항 내에서 "중첩"되어 제한적인 경우이므로 NegBin은 항상 포아송보다 더 잘 맞습니다. 그러나 이로 인해 우도 비 검정과 같은 것을 고려할 수 있지만 포아송이 음 이항에 대한 모수 공간의 경계에 있다는 사실은 검정 통계량의 분포에 영향을 줄 수 있습니다.

어쨌든 매개 변수 수의 차이가 문제가되지 않더라도 매개 변수를 추정 했기 때문에 KS 테스트를 직접 수행 할 수 없으며 KS는 모든 매개 변수가 지정된 경우를위한 것입니다. 부트 스트랩을 사용하려는 아이디어는이 문제를 다루지 만 첫 번째 문제는 아닙니다 (매개 변수 수의 차이).

예를 들어 카이-제곱 적합도 검정을 관심있는 구성 요소로 분할 할 수있는 (예 : 푸 아송 모델과의 편차 측정) 적합도에 대한 부드러운 검정 (예 : Rayner and Best 's book 참조)을 고려하고 있습니다. 이 경우)-4 차 또는 6 차라고 말하면 NegBin 대안에 좋은 힘을 가진 테스트로 이어질 것입니다.

(편집 : 카이 제곱 테스트를 통해 포아송과 네빈 조합을 비교할 수는 있지만 전력이 낮습니다. 카이 제곱을 분할하고 첫 번째 4-6 구성 요소 만 살펴보면 부드러운 테스트로 수행하는 것이 더 좋습니다. .)


감사. 그것은 많은 것들을 분명히하고 내가 조사해야 할 많은 새로운 질문을 열어줍니다. 내 주요 질문은, 당신이 말하는 것은 근사 평균 제곱 오차를 취하는 것과 같이 더 단순한 것이이 문제에 접근하는 올바른 방법이 아니라는 것을 의미합니까? 나는 그것이 강력하지 않을 것이고 p- 값을주지 않을 것이라고 인정 할 것입니다. 모든 의견을 부탁드립니다.
chrisamiller

2
점 집합 (x, y)이 있고 직선 또는 2 차에 맞는지 고려하고 있다고 상상해보십시오. RMSE를 비교 한 경우 선이 하나의 매개 변수가 0으로 설정된 2 차이 기 때문에 2 차는 항상 직선을 이길 것 입니다. 모수의 최소 제곱 추정값이 정확히 0 인 경우 (연속 반응의 가능성이 0 임) 넥타이, 그리고 다른 모든 경우에 라인이 손실됩니다. 그것은 포 이송 대 부정 이항과 동일합니다. 무료 음 이항은 항상 무료 포아송뿐만 아니라 적합 할 수 있습니다.
Glen_b-복지국 Monica

좋은 설명-지금 당신이 말하는 것을 얻습니다. 필자는 회귀를 맞추지 않고 외부 정보를 기반으로 여분의 NB 매개 변수를 사용하기 때문에 케이스가 약간 다르다고 생각합니다 (var / mean 비율이 N이 될 것으로 예상합니다). Poisson은 N = 1 인 특수한 경우이므로, 실제로 비교하는 것은 N의 선택입니다. 회귀 분석을 수행하는 경우 NB는 제약이 적기 때문에 NB가 항상 더 잘 맞는다는 데 동의합니다. 필자의 경우 N 값을 먼저 선택하는 경우 적합하지 않은 N 값을 선택할 수 있습니다.
chrisamiller

나는 당신이 제안한 부드러운 적합성의 매끄러운 테스트에 대해 확실히 읽을 것입니다. 유익한 답변에 감사드립니다.
chrisamiller

데이터가과 분산 매개 변수를 선택하지 않았다는 사실을 깨닫지 못해 죄송합니다. 당신의 방식으로 그것을 수행하는 데 약간의 논쟁이있을 수 있지만, 외부 추정치가 실제로 관찰 한 것을 반영 할 가능성이 있다면 NB는 여전히 상황에 따라 약간의 이점을 가질 수 있습니다.
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.