푸 아송 분포에 대한 신뢰 수준을 계산하는 방법은 무엇입니까?


32

내가 에 얼마나 자신감이 있는지 알고 싶습니다 . 포아송 분포에 대해 신뢰 수준을 높이고 낮추는 방법을 아는 사람이 있습니까?λ

  • 관측치 ( ) = 88
  • 표본 평균 ( ) = 47.18182λ

이것에 대한 95 % 신뢰는 어떻게 될까요?


추정치를 부트 스트랩하는 것도 고려할 수 있습니다. 다음 은 부트 스트랩에 대한 간단한 자습서입니다.
Mark T Patterson

답변:


27

푸 아송의 경우 평균과 분산은 모두 입니다. 람다 주변의 신뢰 구간을 원하면 표준 오차를 로 계산할 수 있습니다.λ .λ/

95 %의 신뢰 구간은 λ ± 1.96 .λ^±1.96λ^/


26
때 괜찮 다음에 대한 포아송가 적절 정규 분포로 근사된다 크다. 값이 작거나 신뢰도가 높을수록 더 좋은 간격을 사용할 수 있습니다. 두 가지에 대한 실제 적용 범위 분석과 함께 math.mcmaster.ca/peter/s743/poissonalpha.html 을 참조하십시오 . (여기서 "정확한"간격은 "피어슨"간격) (45.7683, 48.639입니다) (45.7575, 48.6392, 그리고 일반 근사치) 45.7467, 48.617 (제공 : 때문에, 너무 낮은 그것의 조금,하지만 충분히 가까이 N λ = 4152 ).λnλ=4152
whuber

4
나는 같은 혼란 다른 사람을 위해이었다 : 여기 1.96의 출처에 대한 설명입니다.
mjibson

2
whuber가 제공 한 웹 사이트의 정보를 고려 하여이 문제의 정확한 간격을 어떻게 계산 했습니까? 그 사이트는 샘플이 하나있을 때 진행하는 방법 만 나타내는 것 같아서 따라갈 수 없었습니다. 어쩌면 나는 단순한 것을 이해하지 못하지만 분포는 람다 (n)의 값이 훨씬 작으므로 정규 근사값을 사용할 수 없으며 정확한 값을 계산하는 방법을 모릅니다. 도움을 주시면 감사하겠습니다. 감사!

여기 그들은 평균의 표준 편차를 사용하고 있습니까? 즉, SE = sig/sqrt(N) = sqrt(lam/N)? 단일 값의 표준 편차가 sig푸 아송 분포에서 랜덤 샘플을 추출 할 가능성을 SE알려주는 반면, 위에서 정의한대로 lam추정에 사용한 샘플 수를 고려하여 에 대한 신뢰도를 알려주기 때문에 이는 의미가 있습니다.
AlexG

17

이 백서에서는 포아송 분포의 평균에 대한 신뢰 구간을 계산하는 19 가지 방법에 대해 설명합니다.

http://www.ine.pt/revstat/pdf/rs120203.pdf


2
여기서 mod의 통보에도 불구하고, 나는이 답변을있는 그대로 좋아합니다. 왜냐하면 측정 된 포아송 시스템을 평가하는 방법에 대한 일반적인 합의가 적다는 것을 지적하기 때문입니다.
Carl Witthoft

7

다른 사람들이 제공 한 답변 외에도이 문제에 대한 또 다른 접근 방식은 모델 기반 접근 방식을 통해 달성됩니다. 중앙 한계 정리 접근 방식은 확실히 유효하며 부트 스트랩 추정값은 작은 샘플 및 모드 잘못된 사양 문제로부터 많은 보호를 제공합니다.

효율성을 높이기 위해 회귀 모델 기반 접근 방식을 사용하여 에 대한 신뢰 구간을 향상시킬 수 있습니다 . 파생 과정을 거칠 필요는 없지만 R의 간단한 계산은 다음과 같습니다.λ

x <- rpois(100, 14)
exp(confint(glm(x ~ 1, family=poisson)))

포아송 glm의 자연 파라미터가 로그 상대 속도이므로 이것은 비대칭 간격 추정치입니다. 카운트 데이터가 오른쪽으로 치우치는 경향이 있기 때문에 이점이 있습니다.

위의 접근 방식에는 수식이 있으며 다음과 같습니다.

특급(로그λ^±1λ^)

이 신뢰 구간은 포아송 데이터의 자연 모수 (log) 척도에 대한 최대 우도 추정에서 비롯된 것으로 "효율적"이며 공칭 ​​95 % 적용 범위를 유지하면서 카운트 척도를 기준으로하는 것보다 더 엄격한 신뢰 구간을 제공합니다. .


+1 효율과 다른 형용사를 사용한다고 생각합니다 (또는 계산 또는 코드 골프 효율을 의미하는 것이 더 명확합니다). whuber의 의견은 정확한 간격을 제공하는 자원을 가리키며 glm 접근 방식은 점근 적 결과에 기반합니다. (그러나 더 일반적이기 때문에 그 접근 방식을 추천하는 것이 좋습니다.)
Andy W

실제로 이것에 대해 좀 더 생각하면 whuber가 링크하는 정확한 적용 범위 는 데이터를 보지 않고 를 지정하는 경우에만 적용됩니다 . 빠른 시뮬레이션을 참조하십시오 (새 관찰의 경우). 관찰 된 값을 기반으로 계산 된 적용 범위가 훨씬 낮습니다. 여기에 빠른 시뮬레이션 . μ
Andy W

1
해당 공식에 대한 귀하의 권한은 무엇입니까? 인용을 할 수 있습니까?
pauljohn32

@AndyW : 귀하의 링크는 빠른 시뮬레이션에 유효하지 않습니다
pauljohn32

1
@ pauljohn32는 특히 지수 계열에 관한 Casella Berger의 텍스트를 확인하십시오. 로그 속도는 자연 매개 변수입니다.
AdamO

5

감안할 때 포아송 분포에서 관찰 ,

  • 계산 된 이벤트 수는 n입니다.
  • λσ2

단계적으로

  • λ^=nλ
  • n>20σ

stderr=σ=λn

이제 95 % 신뢰 구간

I=λ^±1.96 stderr=n±1.96 n

[편집] 질문 데이터를 기반으로 한 일부 계산

  • λ

    나는 원래의 질문이 실험이나 데이터를 얻는 방법에 대한 컨텍스트를 제공하지 않기 때문에이 가정을하고 있습니다 (통계 데이터를 조작 할 때 가장 중요합니다).

  • 특정한 경우에 95 % 신뢰 구간은

I=λ±1.96 stderr=λ±1.96 λ=47.18182±1.96 47.18182[33.72,60.64]

따라서 측정 (n = 88 이벤트)이 95 % 신뢰 구간을 벗어나기 때문에 다음과 같이 결론을 내립니다.

  1. 프로세스가 포아송 프로세스를 따르지 않거나

  2. λ


중요 사항 : 포아송 관측치의 표준 오차가 라고 잘못 설명 하기 때문에 위의 첫 번째 허용되는 대답은 잘못 되었습니다.λ/n


1
사이트에 오신 것을 환영합니다! 하지만 @Travis는 "내가 얼마나 자신감을 가질 수 있는지 알고 싶습니다.λλ

2
감사! 이제 특정 계산을 포함하여 답변을 편집했습니다. 질문은 어떻게 λ를 설명하지 않습니다λλ

2
위의 jose.angel.jiminez의 답변이 잘못되었다고 생각하며 원래 질문을 오독하여 발생합니다. 원래 포스터에는 "관찰 (n) = 88"이라고 표시되어 있습니다. 이는 전체적으로 또는 간격 당 관찰 된 이벤트 수가 아니라 관찰 된 시간 간격의 수입니다. 88 개의 관찰 간격 샘플에 대한 간격 당 평균 이벤트 수는 원래 포스터에서 제공 한 람다입니다. (저는 이것을 Jose의 게시물에 대한 의견으로 포함 시켰지만, 댓글을 달기에는 너무 새로운 사이트입니다.)
user44436

@ user44436은 댓글로 추정되는 답변을 추가했습니다. 나는 당신이 그것을 볼 수 있도록 주석으로 다시 게시하고 답이 없으면 제거 될 수 있기 때문에 : ------- 위의 jose의 응답이 잘못되었다고 생각하고 원래의 질문을 잘못 읽음으로써 발생합니다. 원래 포스터는 관찰 (n) = 88이라고 언급했습니다. 이것은 전체적으로 또는 간격 당 관찰되는 사건 수가 아니라 관찰 된 시간 간격의 수였습니다. 88 개의 관찰 간격 샘플에서 간격 당 평균 이벤트 수는 원래 포스터에서 제공 한 람다입니다.
Mörre
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.