매우 큰 표본 크기에 적합한 적합도


12

나는 매일 매우 큰 범주 형 데이터의 표본 (> 1,000,000)을 수집하고 데이터 수집에서 오류를 감지하기 위해 데이터가 날마다 "상당히"다르게 보이기를 원합니다.

나는 적합 테스트 (특히 G 테스트)를 사용하는 것이 이것에 적합하다고 생각했습니다. 예상 분포는 전날의 분포로 제공됩니다.

그러나 샘플 크기가 너무 크기 때문에 검정의 검정력이 매우 높고 많은 오 탐지가 발생합니다. 다시 말해서, 아주 작은 일일 변동조차도 거의 0에 가까운 p- 값을 줄 것입니다.

테스트 통계에 일정한 상수 (0.001)를 곱한 결과, 그 속도로 데이터를 샘플링하는 것에 대한 훌륭한 해석이 이루어졌습니다. 이 기사 는이 접근법에 동의하는 것 같습니다. 그들은 이렇게 말합니다.

카이 제곱은 대략 100에서 2500 사이의 샘플에서 가장 신뢰할 수 있습니다.

이에 대한 권위있는 의견을 찾고 있습니다. 또는 대규모 데이터 세트에서 통계 테스트를 실행할 때 오 탐지에 대한 대체 솔루션이있을 수 있습니다.


3
좋은 질문입니다. 그러나 임시 접근 방식에 대해 객관적으로 지원 가능한 근거는 없습니다 . 그렇다고 성능이 저조하다는 것은 아니지만 더 나은 절차가 있음을 강력히 암시합니다. 오류를 찾으려면이 질문을 편집하여 오류의 크기, 오류 수 및 결과가 (a) 실패한 것을 포함하여 식별하려는 오류의 종류를 설명하면 도움이됩니다. (b) 올바른 데이터를 오류로 표시합니다.
whuber

2
n

'유의 한'및 '거짓 긍정적 인'과 같은 용어를 사용하면 특히 테스트를 올바르게 수행하는 경우 해당 용어의 통계적 의미와 상충되는 것 같습니다. 기술적 인 의미로 엄격하게 사용하지 않는 한 이러한 용어를 사용하지 않는 것이 좋습니다. 기본 문제는 이해하기 어려운 상황에서 가설 검정을 사용하는 것입니다. 평범하고 비 기술적 인 영어로 귀하의 실제 관심사는 무엇입니까?* (특히, 변동성을 허용하지 않는 경우 전날을 '인구'로 사용하는 것은 옳지 않습니다. 일반적으로 오늘처럼 변할 수 있습니다)
Glen_b -Reinstate Monica

답변:


4

테스트가 올바른 결과를 반환합니다. 분포는 매일 동일하지 않습니다. 물론 이것은 당신에게 소용이 없습니다. 직면 한 문제는 오랫동안 알려져있었습니다. 참조 : 칼 피어슨과 RA 피셔 통계 테스트에 : 자연에서 1935 교환

대신 이전 데이터 (귀하의 데이터 또는 다른 곳)를 되돌아보고 각 범주에 대한 일일 변경 사항을 배포 할 수 있습니다. 그런 다음 해당 배포에서 현재 변경이 발생했을 가능성이 있는지 확인합니다. 데이터 및 오류 유형에 대해 몰라도보다 구체적으로 대답하기는 어렵지만이 방법은 문제에 더 적합한 것으로 보입니다.


4

계속해서 신성한 소를 5 % 죽이십시오.

당신은 (정확하게) 문제가 시험의 무력한 힘의 문제라고 지적했습니다. 보다 전통적인 80 %의 값과 같이보다 관련있는 힘으로 재 보정 할 수 있습니다.

  1. 감지하려는 효과 크기를 결정하십시오 (예 : 0.2 % 이동)
  2. 1β=80%)
  3. 기존 의 Pearson 검정 이론 에서 작업 하여 실제 시험에 적합한 수준을 결정하십시오.

p1=p2=p3=p4=p5=0.2p+δ/n=(0.198,0.202,0.2,0.2,0.2)n=106δ=(2,+2,0,0,0)k=

λ=jδj2/pj=4/0.2+4/0.2=40
λN(μ=λ+k=44,σ2=2(k+2λ)=168)44+13Φ1(0.8)=44+130.84=54.91χ42
Prob[χ42>54.91]=3.31011

χ2

널 (null) 및 대안에 대한 근사값은 꼬리에서 제대로 작동하지 않을 수 있습니다 . 이 토론을 참조하십시오 .


2

이 경우, 교수님은 카이 제곱 통계량에 기반한 연관 측정치 인 Cramér 's V 계산을 제안했습니다. 이것은 당신에게 힘을주고 테스트가 과민한지를 결정하는데 도움을 줄 것입니다. 그러나 G2 테스트에서 반환하는 통계와 함께 V를 사용할 수 있는지 확실하지 않습니다.

이것은 V의 공식이어야합니다.

ϕc=χ2n(k1)

nkk


0

한 가지 방법은 작은 데이터 블록에서 테스트를 수행하여 적합도 테스트를보다 의미있게 만드는 것입니다.

α=0.05α

α


이 접근 방식이 "더 의미있는"의미에 대해 자세히 설명해 주시겠습니까?
whuber

통계적 중요성 대 실제 중요성입니다. 10 ^ 6 표본 대신 10 ^ 3을 사용하면 단일 검정의 검정력이 의도적으로 감소하므로 귀무 가설의 기각은 큰 적합 부족에 해당하는 경향이 있습니다. OP는 "일일 변동량"에 신경 쓰지 않기 때문에 단일 테스트 결과가 더 의미가 있습니다. 10 ^ 6 샘플의 경우, 작은 차이로 인해 테스트에서 항상 H0를 거부 할 수 있으므로 테스트 결과가 의미있는 정보를 나타내는 지 확실하지 않습니다.
CJ Stoneking

1
감사합니다. 귀하의 의견은 제가 실제로 생각하는 기본적인 질문이라고 생각하는 흥미롭고 중요한 문제를 제기합니다. 즉, 어떻게 하나 오류를 감지하기 위해 데이터 간의 차이를 측정해야 하고 우려하는 방법 큰 차이를 것입니까? 어떤 상황에서는 답이 적절할 수도 있지만, 데이터에서 발생할 수있는 많은 종류의 오류를 효과적으로 감지 할 수는 없으며 어떤 크기의 데이터 블록을 사용해야하는지에 대한 (자연스러운) 질문도 공개하지 않습니다.
whuber

@ whuber, null과 그 편차가 데이터 크기는 변하지 않지만 질적 인 표현을 추구하는 방식으로 문제를 재정의 할 수 있습니까?
Vass
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.