분포의 동등성에 대한 카이-제곱 검정 : 허용되는 영점이 몇 개인가?


10

나는 21 개의 다른 표현형 중 하나만 가질 수있는 두 그룹의 돌연변이 체를 비교하고 있습니다. 이러한 결과의 분포가 두 그룹간에 유사한 지 확인하고 싶습니다. "분포의 평등에 대한 치-제곱 검정"을 계산하고 그럴듯한 결과를 제공 하는 온라인 테스트 를 찾았습니다 . 그러나이 표에는 꽤 많은 영점이 있으므로이 경우 chi-square를 전혀 사용할 수 있습니까?

다음은 두 가지 그룹과 특정 표현형 수를 나타내는 표입니다.

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1

테이블이 제대로 나오지 않았습니다. 모든 홀수는 그룹 1의 개수이고 모든 짝수는 그룹 2의 개수입니다.
Membran

귀하의 질문을 다시 작성했습니다. 이제 테이블이 정확합니까?
csgillespie

답변:


8

요즘 그런 테이블에서 Fisher의 '정확한'테스트 를 수행하는 것이 완벽하게 가능 합니다. Stata를 사용하여 p = 0.087을 얻었습니다 ( tabi 2 1 \ 2 3 \ .... , exact. 실행에는 0.19 초가 걸렸습니다).

아래의 chl 님의 댓글 다음에 수정 (댓글로 추가를 시도했지만 형식을 지정할 수 없음) :

R 2.12.0에서 작동하지만 기본값 200000보다 'workspace'옵션을 늘려야했습니다.

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(실행 시간은 Stata보다 약간 빠르지 만 오류 메시지의 의미를 해결하는 데 걸리는 시간을 감안할 때 그것은 의심의 여지가 있습니다. 이는 피셔가 사실에도 불구하고 '작업 공간'을 사용하여 R의 일반적인 의미와 다른 것을 의미합니다. R의 핵심 '통계'패키지의 일부입니다.)


1
흥미롭게도 Fisher의 테스트는 R
chl

더 이상 투표 할 수 없습니다. 죄송합니다. wksp를 충분히 늘리지 않은 것 같습니다 :)
chl

Fisher의 "정확한"테스트가 실제로 약간 다른 질문을 다루지는 않습니까? "...이 두 종류의 분류 사이의 연관성 (우발성)의 중요성을 조사하는 데 사용됩니다"(위키 페이지). 제 경우에는 두 그룹 사이의 표현형 분포가 비슷하다는 (가설) 가설을 확인하거나 반박했습니다. "분포의 평등에 대한 치-제곱 검정"이라는 온라인 테스트 (첫 번째 게시물 참조)를 발견했을 때 나는 이것이 내 문제에 대한 것이라고 생각했습니다.
Membran

또한 언급 된 Fisher의 검정 버전이 두 분포를 비교하는 데 적합하다고 생각되는 경우 분포의 균일 성을 확인하는 데 사용할 수도 있습니다 (즉, 한 그룹 내의 표현형이 유한 한 가능한 표현형 사이에 불균일하게 분포되어 있음). ? CHITEST 함수를 사용하여 Excel 에서도이 작업을 수행 할 수 있지만 5 번보다 적은 표현형이있는 위의 것과 유사한 분포가있는 경우 어떻게해야합니까?
Membran

@Membran # 1 : 두 한계 한계 세트 모두에서 Fisher의 정확한 테스트 조건과 는 약간 다른 질문입니다. 이것은 나에게 학문적 인 통계상의 장점 인 것처럼 보이며 나는 학계의 통계 학자입니다. (BTW 당신이 어떤 위키를 참조하는지 알 수 있습니까?) @Membran # 2 : 단방향 테이블의 경우 조건부 정확한 테스트를 "Fisher의 정확한 테스트"라고 부르지는 않지만 그러한 테스트는 가능해야합니다. 단방향 테이블에 대해 더 직관적이라고 생각했지만 현재 지원할 소프트웨어를 찾을 수 없으며 계산을 수행 할 시간이 없습니다.
onestop

5

일반적인 지침은 예상 카운트가 5보다 커야하지만 다음 기사에서 설명하는 것처럼 다소 완화 될 수 있다는 것입니다.

Campbell, I, Chi-squared 및 Fisher-Irwin은 작은 샘플 권장 사항 이 포함 된 2x2 테이블의 테스트 , Statistics in Medicine (2007) 26 (19) : 3661–3675.

Ian Campbell의 홈페이지 도 참조하십시오 .

pchisq.test(..., sim=TRUE)

귀하의 경우, 예상 카운트의 약 80 %가 5 미만이고 40 %가 1 미만인 것으로 보입니다. 관찰 된 표현형 중 일부를 집계하는 것이 합리적입니까?


제안 해 주셔서 감사합니다. 논리적으로 표현형은 각각 3 개의 기록 된 매개 변수의 고유 한 조합이므로 병합 할 수 없습니다. 이들 파라미터 각각은 돌연변이의 결과로 "위로", "아래로"또는 "변경되지 않은"상태로 유지 될 수 있으므로, 3 ^ 3 = 27 개의 별개의 표현형이있을 수있다. 위의 예에서 두 그룹 모두 "0"을 기록한 표현형을 제거하여 그 중 21 개만있었습니다. 특정 표현형의 유병률을 보았지만 다양한 돌연변이 체 그룹에서 그러한 표현형의 분포가 비슷하거나 그렇지 않다는 통계적 증거를 갖고 싶습니다. 감사합니다!
Membran

1
@Membran Aggregation은 의미가 없어도됩니다. 원하는 방식으로 휴지통을 자유롭게 조합 할 수 있습니다. 그러나 미묘한 문제는 사후 집계가 p- 값을 의심하게 만든다는 것입니다. 집계는 데이터와 독립적이어야합니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.