비상 테이블 에서 독립성을 테스트하고 있습니다. G 테스트 또는 Pearson 카이 제곱 테스트가 더 좋은지 모르겠습니다 . 샘플 크기는 수백이지만 셀 수가 적습니다. Wikipedia 페이지 에 명시된 바와 같이 카이 제곱 분포에 대한 근사값은 Pearson 카이 제곱 검정보다 G- 검정에 더 좋습니다. 그러나 Monte Carlo 시뮬레이션을 사용하여 p- 값을 계산하고 있으므로이 두 테스트 사이에 차이점이 있습니까?
비상 테이블 에서 독립성을 테스트하고 있습니다. G 테스트 또는 Pearson 카이 제곱 테스트가 더 좋은지 모르겠습니다 . 샘플 크기는 수백이지만 셀 수가 적습니다. Wikipedia 페이지 에 명시된 바와 같이 카이 제곱 분포에 대한 근사값은 Pearson 카이 제곱 검정보다 G- 검정에 더 좋습니다. 그러나 Monte Carlo 시뮬레이션을 사용하여 p- 값을 계산하고 있으므로이 두 테스트 사이에 차이점이 있습니까?
답변:
그들은 무의식적으로 동일합니다. 그들은 같은 아이디어를 얻는 다른 방법 일뿐입니다. 보다 구체적으로, Pearson의 카이 제곱 검정은 점수 검정이고 G- 검정은 우도 비 검정입니다. 이러한 아이디어를 더 잘 이해하려면 여기에서 내 대답을 읽는 데 도움이 될 수 있습니다. 로지스틱 회귀 출력, 카이 제곱 검정 및 OR에 대한 신뢰 구간에서 p- 값이 다른 이유는 무엇입니까? 직접 질문에 대답하기 위해 Monte Carlo 시뮬레이션으로 p- 값을 계산하는 경우 중요하지 않습니다. 더 편리한 것을 사용할 수 있습니다. 낮은 셀 수에는 문제가 없으며 (잠재적으로) 예상되는 것만 낮습니다.세포 수; 낮은 셀 수를 가질 수 있으며 예상되는 수를 예상 할 수 있습니다. 또한, p- 값이 시뮬레이션에 의해 결정될 때 실제 카운트가 낮거나 기대 카운트가 낮을수록 중요하지 않습니다.
R이 p- 값을 시뮬레이션하는 옵션을 포함하는 편리한 기능을 가지고 있기 때문에 가치가있는 것은 Pearson의 카이 제곱을 사용하는 것입니다.
chisq.test
.
Rfast를 살펴보십시오. https://cran.r-project.org/web/packages/Rfast/index.html 관련 명령은 g2Test_univariate (data, dc)입니다. g2Test_univariate_perm (data, dc, nperm) 계산이 매우 빠릅니다. 카이 제곱은 근사치이므로 일반적으로 G ^ 2 검정을 선호합니다.
카이 제곱 검정과 G 검정은 일반적으로 유사한 결과를 생성합니다. 그러나 여기서 가장 중요한 것은 언급 된 테스트뿐만 아니라 연구 과정에서 향후 테스트를 위해 두 가지 테스트 중 하나를 선택하여 고수해야한다는 것입니다. 두 테스트를 서로 바꾸어 사용하려고하면 오 탐지 가능성이 높아질 수 있으므로 권장됩니다.