카이 제곱 검정에 p- 값의 Monte Carlo 시뮬레이션을 적용하는 규칙


9

chisq.test()R 의 함수에서 Monte Carlo 시뮬레이션의 사용을 이해하고 싶습니다 .

128 레벨 / 클래스를 가진 질적 변수가 있습니다. 샘플 크기는 26입니다 (더 많은 "개체"를 샘플링 할 수 없었습니다). 분명히, 나는 "개인"이 0 인 레벨을 가질 것입니다. 그러나 사실 나는 가능한 127 개 중에서 매우 적은 수의 클래스 만 가지고 있다는 것입니다. 카이 제곱 테스트를 적용하려면 각 레벨에 최소 5 명의 개인이 있어야한다는 것을 들었습니다 (그 이유를 완전히 이해하지 못함). 나는 simulate.p.value분포를 추정하기 위해 Monte Carlo 시뮬레이션을 사용하는 옵션을 사용해야 한다고 생각했습니다. p- 값을 계산합니다. Monte Carlo 시뮬레이션이 없으면 R은 p- 값을 제공합니다 < 1e-16. Monte Carlo 시뮬레이션을 사용하면의 p- 값을 얻을 수 4e-5있습니다.

26 1과 101 0의 벡터로 p- 값을 계산하려고 시도했으며 Monte-Carlo 시뮬레이션을 사용하면 1에서 p- 값을 얻습니다.

내 표본 크기가 가능한 클래스 수에 비해 적더라도 관측 된 분포는 가능한 모든 클래스가 실제 모집단에서 동일한 확률 (1/127)로 존재할 가능성이 거의 없다는 것을 언급해도 괜찮습니까? ?


3
데이터가 실제로 26 개 표본 중 26 개의 개별 클래스를 관찰했다면, 127 개의 클래스가 모두 동일한 확률을 갖는다는 가설에 대한 증거는 본질적으로 없습니다. 이것은 다항 분포 계산으로 평가할 수 있습니다.
whuber

1
" 카이 제곱 테스트를 적용하려면 각 레벨에 최소 5 명의 개인이 있어야합니다 (그 이유를 완전히 이해하지 못함) . 원래 조언은 실제 개수가 아닌 예상 개수가 5 이상이어야한다는 것이 었습니다. (오래된 오래된) 규칙의 목표는 카이-제곱 분포가 검정 통계량. 지난 40 년 동안 수많은 논문에 대한 조언은 '이 규칙은 다소 엄격하다'입니다.
Glen_b-복지국 모니카

답변:


6

검색을 통해 Monte-Carlo Simulation의 요점은 테스트 조건이 충족되지 않을 때 p- 값을 계산하기 위해 테스트 된 샘플과 동일한 크기를 갖는 무작위로 생성 된 샘플을 기반으로 기준 분포를 생성하는 것 같습니다.

이것은 JSTOR 에서 찾을 수있는 Hope A. J Royal Stat Society Series B (1968)에 설명되어 있습니다 .

다음은 Hope 논문에서 인용 한 내용입니다.

몬테카를로 유의성 테스트 절차는 테스트 된 가설에 따라 생성 된 무작위 샘플과 관찰 된 데이터의 비교로 구성됩니다. ... 다른 통계적 가설을 완전히 지정할 수 있다고 가정하면 Monte-Carlo 테스트 절차 대신에 알려진 효율적인 효율 테스트를 사용하는 것이 좋습니다. 그러나 시험을 적용하기 위해 필요한 조건이 충족되지 않거나 기본 분포를 알 수 없거나 적절한 시험 기준을 결정하기 어려울 수 있기 때문에 이러한 시험을 항상 사용할 수있는 것은 아닙니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.