포아송이 아니라면 이것은 어떤 분포입니까?


11

7 일 동안 개인이 수행 한 작업 수를 포함하는 데이터 세트가 있습니다. 구체적인 조치는이 질문과 관련이 없어야합니다. 다음은 데이터 세트에 대한 설명 통계입니다.

Range0772Mean18.2Variance2791Number of observations696

다음은 데이터의 히스토그램입니다. 액션 히스토그램

데이터 소스에서 볼 때 포아송 분포에 적합하다고 생각했습니다. 그러나 평균 ≠ 분산 및 히스토그램은 왼쪽에 크게 가중됩니다. 또한 goodfitR 에서 테스트를 실행 하고 다음을 얻었습니다.

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

최대 우도 방법은 또한 p- 값 = 0을 산출했습니다. 귀무 가설이 다음과 같다고 가정 할 때 : 데이터는 포아송 분포와 일치하며 (문서는이를 지정하지 않음) goodfit귀무 가설을 기각해야하므로 데이터는 그렇지 않습니다 푸 아송 분포와 일치합니다.

그 분석이 맞습니까? 그렇다면이 데이터에 어떤 분포가 적합하다고 생각하십니까?

나의 궁극적 인 목표는 두 표본 간의 평균 행동 수를 비교하여 평균이 다른지 확인하는 것입니다. 분포를 확인해야합니까? Poisson 분포 에서는 일반적인 테스트 (z-, t-, 테스트)가 작동하지 않는다는 것을 이해했습니다. 데이터가 실제로 포아송 분포 인 경우 어떤 테스트를 사용해야합니까?χ2


음의 이항 법을 이미 사용해 보셨습니까? 도움이 되었습니까?
Ric

@Richard, 나는 음 이항 법을 시도했지만 맞지 않았습니다. 그래도 제안에 감사드립니다. 이것이 어떤 종류의 분포인지 알아낼 수 없었기 때문에 분포를 무시하고 비모수 적 테스트 인 Man-Whitney U 테스트를하기로 결정했습니다.
Dcook

네가 빈에 대해 한 가지 더 언급하십시오. 에서는 en.wikipedia.org/wiki/Negative_binomial_distribution 는 평균의 수식과 분산 및 볼 . 그런 는 어떤 의미가 있습니까? 그렇지 않다면 네가 빈이 여기에 좋은 모델이 아니라는 증거가 더 있습니다 (모멘트 추정기를 믿는다면). pmean/variance=1pp
Ric

나는 Bernoulli 재판의 개념이 내 경우에 적용되지 않는다고 생각합니다. 성공이나 실패의 개념은 없습니다. 과목은 관심있는 행동을 실행하거나 그렇지 않습니다. 그들은 시도하지 않고 실패합니다. 따라서 성공 확률에 대한 아이디어는 의미가 없습니다. 재판이 시간 단위가 아닌 한. 그러나 그 기간 동안 피험자가 여러 행동을 수행하는 것을 막을 수있는 것은 없습니다.
Dcook 2013

미디엄

답변:


8

분산이 평균보다 크면이를과 분산이라고합니다. 이를위한 자연스런 모형은 음 이항 분포입니다. 이는 파라미터 람다가 감마 분포를 따르는 포아송 분포로도 볼 수 있습니다. 첫 번째 쉬운 단계는 음의 이항 분포에 적합 할 수 있습니다.


5

원시 계수 데이터가 포아송 분포와 같지 않으면 무언가 빠진 것입니다. 아마도 행동의 수는 온도에 의존하기 때문에 더운 날에는 사람들이 더 적은 일을합니다. 연구 기간 동안의 온도 변화는 분포에 영향을 미치며 포아송이 아닙니다.

그러나, 매일의 조치 수는 여전히 온도에 따라 평균 Poisson이 될 수 있습니다. 매일 온도가 있다면 온도에 따라 Poisson 변수로 여러 동작을 회귀하는 GLM을 수행 할 수 있습니다. 잘 맞으면 작업이 완료된 것입니다.

가능한 설명 변수가 없다면 "다른 일이 일어나고 있습니다-행동의 수는 독립적 인 포아송 표본이 아닙니다"– 즉 귀무 가설을 기각하십시오.

순위 등을 사용하여 쌍으로 된 관측 값을 비교할 수있는 분포없는 테스트가 있습니다. 일반적으로 많은 수의 순열을 수행하고 검정 통계량을 계산합니다.


4

한 가지 더 : 카운트 데이터에서 특이 치를 조사해야합니다. 당신은 400-ish에서 하나의 카운트를 얻었고 800-ish까지는 아무것도 없습니다. 일반적인 모델에는 맞지 않을 것입니다.


1

제로 사건의 수를 세는 것 같습니다. 그렇다면 ZIP 모델 (또는 허들)을 고려할 수 있습니다- 개요는 Zeileis et al의 R의 카운트 데이터에 대한 회귀 모델을 참조하십시오 .

대략적으로 요약하면,이 방법은 나머지 카운트와 별도로 제로 카운트를 모델링하여 사용자의 경우에 유용 할 수 있습니다.

참조하기 pscl패키지와 zeroinfl()hurdle()기능.


1

히스토그램이 기만적으로 비닝 된 것 같습니다. 0-50 범위에 걸쳐 300 개가 넘는 관측치가 균등하게 퍼져 있고, 약 320 개가 50-100 개 범위에 걸쳐 균등하게 퍼져 있고, 50 이상이 100 이상이면 평균이 18.2보다 크게 커야합니다.

0-50 범위의 데이터가 고르게 분산되지 않고 0 근처에 집중되면 0-50 범위보다 50-100 범위에서 더 많은 것을 보는 것은 놀라운 일입니다.

아마도 분포가 혼합되어있을 것입니다. 나는 실제 696 번의 관찰없이, 특히 상황에 대해 더 많이 알지 않고도 누군가가 이것으로 많은 것을 할 수 있다고 의심합니다. 696 개의 관측치 각각은 개인입니까? 각 개인이 취한 조치의 수는 응답입니까? 그렇다면 데이터에 다른 유형의 개인이 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.