큰 데이터의 포아송 회귀 분석 : 측정 단위를 변경하는 것이 잘못 되었습니까?


17

포아송 분포의 계승으로 인해 관측치가 클 때 포아송 모형을 추정하는 것은 실용적이지 않습니다 (예를 들어, 최대 우도 사용). 예를 들어, 주어진 연도의 자살 횟수를 설명하는 모델을 추정하려고 할 때 (연간 데이터 만 제공) 매년 수천 명의 자살자가 있다고합니다. 2998이 29.98 ~ = 30이되도록? 즉, 측정 단위를 변경하여 데이터를 관리하기가 잘못 되었습니까?

답변:


15

큰 값의 \ lambda (그 매개 변수)를 가진 Poisson 분포를 다룰 때, Poisson 분포에 정규 근사를 사용하는 것이 일반적입니다.

이 사이트에서 언급 했듯이 \ lambda가 20을 초과하면 정규 근사를 사용하는 것이 좋으며 \ lambda가 더 높아질수록 근사치가 향상됩니다.

푸 아송 분포는 음이 아닌 정수로 구성된 상태 공간에 대해서만 정의되므로 크기 조정 및 반올림으로 인해 데이터에 이상한 일이 발생합니다.

보통 약 사용 큰 포아송 통계는 매우 일반적입니다.


6

포아송의 경우 카운트가 카운트이기 때문에 좋지 않습니다. 단위는 단일입니다. 반면에 R과 같은 고급 소프트웨어를 사용하는 경우 Poisson 처리 기능은 이러한 큰 숫자를 인식하고 숫자 트릭을 사용하여 처리합니다.

분명히 나는 ​​정규 근사법이 또 다른 좋은 접근법이라는 데 동의합니다.


3

대부분의 통계 패키지에는 계승의 자연 로그를 직접 계산하는 함수가 있습니다 (예 : R의 lfactorial () 함수, Stata의 lnfactorial () 함수). 이를 통해 원하는 경우 상수 항을 로그 우도에 포함시킬 수 있습니다.


또한 n!=의 Gamma(n+1)경우 n> = 0입니다. 따라서 Gamma계승을 계산해야하는 경우 (또는 로그 우도를 계산하는 경우 로그 감마) 호출 해야하는 함수를 찾으십시오.
Andre Holzner

3

나는 당신이 그렇게 할 수 없습니다. @Baltimark가 말했듯이, 람다가 크면 분포가 더 정상적인 모양 (대칭)이되고 축소하면 더 이상 포아송 왜곡이되지 않습니다. R에서 다음 코드를 시도하십시오.

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

결과는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

축소 된 포아송 (빨간색 선)이 포아송 분포와 완전히 다르다는 것을 알 수 있습니다.


1

최대 가능성을 사용할 때 단순히 '계승'을 무시할 수 있습니다. 자살 사례에 대한 추론은 다음과 같습니다. 허락하다:

λ : 연간 예상 자살 횟수

k i : i 년의 자살 횟수

그러면 다음과 같이 로그 가능성을 최대화합니다.

LL = ∑ (k i log (λ)-λ-k i !)

상기 극대화 K로 다음을 최대화 동등 I ! 상수입니다 :

LL ' = ∑ (k i log (λ)-λ)

계승이 왜 문제가되는지 설명 할 수 있습니까? 뭔가 빠졌습니까?


일련의 관측치에서 모수를 추정하는 것만으로도 누락 된 것이 없습니다. 그것은 OP의 질문에 대한 주요 아이디어였습니다. 그러나 그녀는 또한 일반적으로 (엄격하지는 않지만) "포아송 모델을 추정하는 방법"을 묻고있었습니다. 아마도 그녀는 특정 시점에서 pdf의 가치를 알고 싶어 할 것입니다. 이 경우 정상은 약. 관측치가 계승을 비현실적으로 계산하기에 충분히 클 경우 모수를 스케일링하거나 관측치를 100 또는 그 이상으로 스케일링하는 것보다 낫습니다.
Baltimark

1
@Srikant는 계승이 문제가 아닌 모수를 추정하는 것이 옳습니다. 그러나 일반적으로 주어진 모형에 대한 우도 값을 원할 때 계승을 사용해야합니다. 또한 가설 검정 (예 : 우도 비율 검정)의 경우 우도 값이 필요합니다.
Vivi

@ 발티 마크 : 예, 포아송의 측정 단위를 변경하는 것이 유효한지 여부를 일반적으로 알고 싶습니다. 나는이 질문을 받았으며 어떻게해야할지 몰랐다.
Vivi

@ Vivi : k_i로 가능성을 계산하려는 이유가 확실하지 않습니다! 대부분의 응용 (예를 들어, 우도 비 테스트, 베이지안 추정)에서와 같이 상수는 중요하지 않을 것이다. 어쨌든, 당신이 제안한대로 스케일을 조정할 수 있다고 생각하지 않습니다. 다른 느낌이 들면 답변을 업데이트하겠습니다.

@Srikant, 요점을 알지만 일부 소프트웨어 (예 : Eviews)에는 기본적 으로이 기능이 포함되어 있으며 큰 숫자는 좋아하는 문제입니다. 나는 왜 당신이 그것을 둘러싼 방법보다는 그것을 할 수 있거나 할 수 없는지에 대한 설명을 실제로 읽은 것 같지만 토론은 흥미롭고 유익했습니다 :)
Vivi
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.