카운트의 표준 오차


14

희귀 질환의 계절별 사건 사례 데이터 세트가 있습니다. 예를 들어, 봄에는 180 건, 여름에는 90 건, 가을에는 45 건, 겨울에는 210 건이 있다고 가정합니다. 이 숫자에 표준 오류를 첨부하는 것이 적절한 지 고민하고 있습니다. 연구 목표는 향후 재발 할 수있는 질병 발생률의 계절적 패턴을 찾고 있다는 점에서 중요하지 않습니다. 따라서 총계에 불확실성을 측정하는 것이 가능해야하는 것처럼 직관적으로 느껴집니다. 그러나 평균이나 비율이 아닌 단순한 수를 다루기 때문에이 경우 표준 오류를 계산하는 방법을 잘 모르겠습니다.

마지막으로, 데이터가 사례 집단 (발생한 모든 사례) 또는 무작위 표본을 나타내는 지 여부에 따라 답이 달라질 수 있습니까? 내가 틀리지 않으면 추론이 없기 때문에 일반적으로 모집단 통계에 표준 오류를 제시하는 것은 의미가 없습니다.


개수는 정규화되지 않은 비율이므로 st를 계산할 수 있습니다. 비율 오류로 인해 카운트 단위로 "비정규 화"됩니다. 당신은 그 성입니다. 오류는 샘플에만 적용됩니다. 모집단에서는 오류가 없습니다.
ttnphns

답변:


14

인구는 질병에 걸릴 위험이있는 모든 사람들의 (가설적인) 세트입니다. 일반적으로 연구 영역에 거주하는 모든 사람 (또는 명확하게 식별 가능한 일부 하위 그룹)으로 구성됩니다. 이 모집단은 연구의 목표와 데이터에서 얻은 모든 추론의 대상이므로 명확하게 정의하는 것이 중요합니다.

질병의 사례가 독립적 인 경우 (병원이 사람간에 쉽게 전달되지 않고 지역 환경 조건에 의해 유발되지 않을 경우 합리적인 가설 일 수 있음) 드문 경우, 그 수는 포아송 분포를 밀접하게 따라야합니다 . 이 분포 의 표준 편차에 대한 올바른 추정값은 개수의 제곱근입니다 .

(180,90,45,210)(13.4,9.5,6.7,14.5)한 시즌 동안 관찰 된 실제 질병 수는 실제 비율과 다릅니다. 실제 (알 수 없음) 비율의 제곱근은 발생할 수있는 변동량을 정량화합니다. 때문에 관찰 카운트 한다고 가까운 실제 비율에 의한 것으로, 자신의 제곱근은 진정한 속도의 제곱근에 대한 합리적인 프록시해야한다. 이 프록시는 정확히 "표준 오류"가 의미하는 것입니다.

1657714.577

9(20,10,5,23)(4.5,3.2,2.2,4.8)9(40,28.5,20,44)

이 제한된 데이터로 갈 수있는 한도입니다. 이 간단한 계산 결과는 다음과 같습니다.

  • 인구 특성을 결정하는 것이 중요합니다.

  • 카운트의 제곱근은 표준 오차를 평가하기위한 대략적인 시작점입니다.

  • 제곱근은 질병 사례에서 독립성이 결여되어 있음을 반영하기 위해 (대략) 몇 가지 요소를 곱해야합니다 (이 요소는 대략 질병 군집의 크기와 관련 될 수 있음).

  • 이들 수의 변화는 주로 불확실성 (기초의 포아송 강도에 대한)보다는 시간에 따른 질병률의 변화를 반영합니다.


1
매우 신중하고 철저한 답변! 매우 감사합니다.
절반 패스

2

"무엇의 표준 오류입니까?" 이 네 가지 수치의 평균을 취하고 해당 평균의 표준 오차를 계산할 수 있습니다. 이 통계와 그에 따른 신뢰 구간은 4 가지 계절을 일반화 할 수있는 모든 4 가지 계절을 대표하는 것으로 간주한다고 믿으면 의미가있을 것입니다. 당신이 그렇게 정당화되는 한, 당신이 가진 데이터는 실제로 인구의 무작위 표본이 될 것입니다. 언급 한 샘플링에는 추가 샘플링 계층이 필요합니다. 매년 클러스터를 구성하는 클러스터 샘플링이라고 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.