나는 매일 매우 큰 범주 형 데이터의 표본 (> 1,000,000)을 수집하고 데이터 수집에서 오류를 감지하기 위해 데이터가 날마다 "상당히"다르게 보이기를 원합니다.
나는 적합 테스트 (특히 G 테스트)를 사용하는 것이 이것에 적합하다고 생각했습니다. 예상 분포는 전날의 분포로 제공됩니다.
그러나 샘플 크기가 너무 크기 때문에 검정의 검정력이 매우 높고 많은 오 탐지가 발생합니다. 다시 말해서, 아주 작은 일일 변동조차도 거의 0에 가까운 p- 값을 줄 것입니다.
테스트 통계에 일정한 상수 (0.001)를 곱한 결과, 그 속도로 데이터를 샘플링하는 것에 대한 훌륭한 해석이 이루어졌습니다. 이 기사 는이 접근법에 동의하는 것 같습니다. 그들은 이렇게 말합니다.
카이 제곱은 대략 100에서 2500 사이의 샘플에서 가장 신뢰할 수 있습니다.
이에 대한 권위있는 의견을 찾고 있습니다. 또는 대규모 데이터 세트에서 통계 테스트를 실행할 때 오 탐지에 대한 대체 솔루션이있을 수 있습니다.