표본 크기가 매우 클 때 신뢰 구간


14

내 질문은 특히 저널 간행물에 대해 "빅 데이터를 사용하여 샘플링 오류를 평가하는 방법"으로 표현할 수 있습니다. 다음은 도전 과제를 설명하는 예입니다.

매우 큰 데이터 세트 (100000 개 병원에서 100 만 명 이상의 고유 환자 및 처방약)에서 특정 약물을 복용하는 환자의 비율을 추정하는 데 관심이있었습니다. 이 비율을 얻는 것은 간단합니다. n이 매우 크기 때문에 신뢰 구간 (예 : 파라 메트릭 또는 부트 스트랩)은 엄청나게 좁거나 좁습니다. 큰 표본 크기를 갖는 것은 운이 좋지만 여전히 일부 형태의 오류 확률을 평가, 제시 및 / 또는 시각화하는 방법을 찾고 있습니다. 신뢰 구간 (예 : 95 % CI : .65878-.65881)을 넣거나 시각화하는 것이 도움이되지 않는 것처럼 보이지만 (예 : 95 % CI : .65878-.65881) 불확실성에 대한 진술을 피하는 것도 불가능한 것 같습니다.

당신의 생각을 알려주세요. 이 주제에 관한 어떤 문헌이라도 감사하겠습니다. 표본 크기가 크더라도 데이터에 대한 과신을 피하는 방법


7
비 샘플링 오류가 그대로 유지된다는 사실을 상기시켜 과도한 신뢰를 피할 수 있습니다. 샘플링 및 측정에 바이어스가 있어도 여전히 존재합니다. 또한, 당신이 독창적 인 (나는 오히려 "명백한") 환자 또는 다른 방식으로 정의 된 관찰을 세고 있든, 같은 환자를위한 약물과 어떤 방식 으로든 함께 제공되는 약물을 연결하는 클러스터 구조가 있습니다. 가장 간단한 신뢰 구간 계산으로 계산되지 않습니다. 다른 데이터 세트와 비교하고 데이터 생산을 문서화하는 것 외에는 이것을 정량화하는 방법에 대한 솔루션이 없습니다.
Nick Cox

답변:


10

이 문제는 일부 연구에서도 나타났습니다. (전염병 모델러로서, 나는 자체 데이터 세트를 만드는 사치를 가지고 있으며 충분히 큰 컴퓨터를 사용하면 본질적으로 임의로 크기를 조정할 수 있습니다.

  • 보고 측면에서 보다 정확한 신뢰 구간을보고 할 있지만이 유틸리티의 유용성은 약간 의문의 여지가 있습니다. 그러나 그것은 잘못이 아니다,이 크기의 데이터 세트로, 나는 거기 모두 수요 신뢰 구간에 많은 호출을보고 생각하지 않습니다 그리고 우리는 정말로 그들처럼 등 두 자리 숫자로 반올림 될 것입니다 불평
  • 과신을 피하는 데있어 핵심은 정확성정확성 이 서로 다르다는 점을 기억 하고 두 가지를 혼동하지 않는 것입니다. 큰 표본을 가지고있을 때, 추정 된 효과가 얼마나 정확한지 알아 차리고 그것이 잘못되었다고 생각하지 않는 것은 매우 유혹적입니다. 내가 생각하는 것이 핵심이라고 생각합니다. 바이어스 된 데이터 세트는 N = 10, 또는 100, 또는 1000 또는 100,000에서 바이어스를 갖습니다.

대규모 데이터 세트의 전체 목적은 정확한 추정치를 제공하는 것이기 때문에 해당 정밀도에서 벗어날 필요는 없다고 생각합니다. 그러나 대량의 불량 데이터를 수집하여 불량 데이터를 개선 할 수는 없다는 점을 기억해야합니다.


대량의 불량 데이터가 소규모의 불량 데이터보다 여전히 낫다고 생각합니다.
Aksakal

@Aksakal 왜? 정답은 여전히 ​​틀립니다.
Fomite

@Fomite-네,하지만 당신은 그것이 틀렸다고 더 확신 합니다 :)
Duncan

6

이 문제는 제 자신의 원고에서 나타났습니다.

1.보고 옵션 :보고 할 CI가 하나 또는 몇 개 뿐인 경우 "(예 : 95 % CI : .65878-.65881)"보고는 지나치게 상세하지 않으며 CI의 정확성을 강조합니다. 그러나 CI가 많은 경우 독자에게 담요 설명이 더 도움이 될 수 있습니다. 예를 들어, 나는 보통 "이 표본 크기에서 각 비율에 대한 95 % 신뢰 한계 오차는 +/- .010보다 작습니다"의 효과에 대해보고합니다. 나는 보통 Method, Table 또는 Figure의 캡션 또는 둘 다에서 이와 같은 것을보고합니다.

2. 큰 표본 크기에서도 "과도한 신뢰"피하기 : 표본이 100,000 개인 경우 중앙 제한 정리를 통해 CI의 비율을보고 할 때 안전을 유지할 수 있습니다. 따라서 내가 알지 못하는 다른 가정 위반이없는 경우 (예 : 위반 된 iid)가 아니라면 설명 된 상황에서는 괜찮을 것입니다.


0

신뢰 구간을보고하지 마십시오. 대신 정확한 표본 크기와 비율을보고하십시오. 독자는 원하는 방식으로 자신의 CI를 계산할 수 있습니다.


4
정량적 데이터의 모든 보고에 이러한 추론이 적용되어서는 안되는 이유는 무엇 입니까?
whuber

@ whuber, 좋은 질문입니다. 나는 모두 재현 가능한 연구를 위해 모든 사람들이 자신의 데이터 세트를 공개하기를 바랍니다.
Aksakal

6
나는 그것이 제안으로 받아 들여지는 것을 의미하지 않았다. 모든 사람이 자신의 데이터 집합을 게시 했더라도 분석을 제공하지 못하면 과학적 의무를 포기하게되는데 여기에는 불확실성 분석이 포함됩니다. 당신은 과학자들이 전혀 분석하지 않고 데이터를 출판하는 것 외에는 아무것도하지 않는다는 제안으로 논리적으로 끝나는 방향으로 가고있는 것 같습니다! 그것은 CI가보고되지 않았다는 권고의 기소가되어 버린다. 반대로 샘플 크기에 상관없이 어떤 경우에도 어떤 종류의 통계 분석이 제공되어야 함을 나타냅니다.
whuber

0

100 개의 서로 다른 병원 비율이 동일한 평균값으로 수렴하지 않을 가능성을 고려하십시오. 그룹 간 차이를 테스트 했습니까? 병원간에 측정 가능한 차이가있는 경우 공통 정규 분포에서 표본이 생성된다는 가정이 지원되지 않으며 풀링해서는 안됩니다.

그러나 데이터가 실제로 정규 분포의 큰 표본에서 나온 경우 데이터의 속성으로 유용한 "불확실성에 대한 진술"을 찾지 않고 통계가 일반화되어야하는 이유 또는 이유에 대한 정보를 얻을 수 있습니다. 수집해야 할 고유의 편견 또는 정상 성의 결여 등을 지적해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.