내 질문은 특히 저널 간행물에 대해 "빅 데이터를 사용하여 샘플링 오류를 평가하는 방법"으로 표현할 수 있습니다. 다음은 도전 과제를 설명하는 예입니다.
매우 큰 데이터 세트 (100000 개 병원에서 100 만 명 이상의 고유 환자 및 처방약)에서 특정 약물을 복용하는 환자의 비율을 추정하는 데 관심이있었습니다. 이 비율을 얻는 것은 간단합니다. n이 매우 크기 때문에 신뢰 구간 (예 : 파라 메트릭 또는 부트 스트랩)은 엄청나게 좁거나 좁습니다. 큰 표본 크기를 갖는 것은 운이 좋지만 여전히 일부 형태의 오류 확률을 평가, 제시 및 / 또는 시각화하는 방법을 찾고 있습니다. 신뢰 구간 (예 : 95 % CI : .65878-.65881)을 넣거나 시각화하는 것이 도움이되지 않는 것처럼 보이지만 (예 : 95 % CI : .65878-.65881) 불확실성에 대한 진술을 피하는 것도 불가능한 것 같습니다.
당신의 생각을 알려주세요. 이 주제에 관한 어떤 문헌이라도 감사하겠습니다. 표본 크기가 크더라도 데이터에 대한 과신을 피하는 방법