요즘 컴퓨터의 힘을 감안할 때 Fisher의 정확한 테스트보다는 카이 제곱 테스트를 수행해야 할 이유가 있습니까?


86

소프트웨어가 오늘날 피셔의 정확한 테스트 계산을 매우 쉽게 수행 할 수 있다고 가정하면 이론적으로나 실제로 카이 제곱 테스트가 피셔의 정확한 테스트보다 선호되는 상황이 있습니까?

Fisher의 정확한 테스트의 장점은 다음과 같습니다.

  • 2x2보다 큰 우발 상황 테이블로 스케일링 (즉, 모든 r x c 테이블)
  • 정확한 p- 값을 제공합니다
  • 최소 예상 셀 수를 가질 필요가 없습니다.

10
좋은 고전 이니까요. 곧 절묘한 빈티지가 될 것입니다. 그 이후로 사람들이 컴퓨터에 대항 할 때 두 번째 젊음으로 살게됩니다.
ttnphns

7
큰 테이블에서 Fisher의 정확한 검정 통계량을 계산하려고 시도한 적이 있습니까? (너무 오래 걸립니다 ...)
whuber

22
이미 얻은 좋은 의견과 답변 외에도 더 좋은 질문은 "컴퓨터의 힘을 얻으십시오. 시뮬레이션 / 순열 테스트를 항상하지 않는 이유는 무엇입니까?"입니다.
Peter Flom

1
@ whuber 나는 C ++에서 (대수) 테이블이없는 (독점적) 구현을했습니다. 최대 8 자리의 숫자에 대해 수천 개의 P 값을 초 단위로 실행합니다.
Michel de Ruiter

1
@Michel 나는 표의 총 세포 수를 의미했습니다. 2 x 2 테이블의 계산은 쉽지만 테이블이 커지면 계산이 번거로워집니다.
whuber

답변:


61

질문을 뒤집을 수 있습니다. 일반적인 Pearson 테스트는 거의 항상 Fisher의 정확한 테스트보다 정확하고 계산이 훨씬 빠르기 때문에 왜 Fisher의 테스트를 사용합니까?χ2

정확한 을 산출하기 위해 Pearson의 에 대해 예상되는 셀 주파수가 5를 초과해야한다는 것은 잘못된 사실 입니다. 매우 간단한 보정이 테스트 통계에 적용된 경우 예상 셀 주파수가 1.0을 초과하는 한 테스트가 정확 합니다. P N - 1χ2PN1N


R-help, 2009에서 :

캠벨, I. Chi-squared 및 Fisher-Irwin 테스트는 작은 샘플 권장 사항으로 2x2 테이블을 테스트합니다. 의학 통계 2007; 26 : 3661-3675. ( 추상 )

  • ... Armitage의 저서 중 최신판에서는 연속성 조정을 비상 대표 카이 제곱 검정에 사용하지 말 것을 권장합니다.

  • E. Pearson 카이 제곱 검정의 Pearson 변형 (원본과 (N-1) / N의 차이);

  • Cochran은 "5보다 작은 기대 주파수"에서 5는 임의적이라고 언급했다.

  • 비교 연구를 위해 발표 된 연구 결과는 다음과 같이 요약 될 수 있습니다 .

    1. Yate의 카이 제곱 검정 은 공칭 값보다 낮고 종종 공칭 값의 절반 미만인 제 1 종 오류율을 갖습니다.

    2. 피셔 - 어윈 테스트는 공칭보다 I 오류율을 입력있다;

    3. K Pearson의 카이 제곱 검정 버전 은 Yate의 카이 제곱 검정 및 Fisher-Irwin 검정보다 공칭에 가까운 제 1 종 오류율을 갖지만 경우에 따라 제 1 종 오류가 공칭 값보다 상당히 커집니다.

    4. 'N-1'카이 제곱 검정은 K. Pearson의 'N'버전과 동일하게 작동하지만 공칭 값보다 높은 경향은 줄어 듭니다.

    5. 양면 어윈의 규칙을 사용하여 피셔 - 어윈 테스트 일방적 확률 더블링 방법보다 보수적;

    6. 단측 확률을 두 배로하여 P- 중앙 Fisher Fisher-Irwin 검정은 표준 버전의 Fisher-Irwin 검정보다 성능이 우수하며 Irwin의 규칙에 따른 mid-P 방법은 실제 유형 I 오류가 명목 수준에 가까워 질 때 여전히 더 잘 수행됩니다. ";

  • 예상 주파수가 1을 초과하면 'N-1'테스트에 대한 강력한 지원;

  • 한계 총계에 유용한 정보가 없다는 피셔의 전제에 기초한 피셔 테스트의 결함;

  • 매우 작은 표본 크기에서 유용한 정보를 보여줍니다.

  • Y / 2의 N / 2 연속성 조정은 크게 수정되어 부적절합니다.

  • 무작위 시험에서 무작위 시험의 사용에 대한 반론이 존재한다.

  • 최악의 경우의 계산;

  • 전체 권장 사항 : 모든 예상 주파수가 1 이상인 경우 'N-1'카이 제곱 테스트를 사용하고 그렇지 않으면 양면 테스트에 Irwin의 규칙을 사용하여 Fisher-Irwin 테스트를 사용하여 꼬리에서 테이블을 가능성이 적거나 그보다 낮게 설정하십시오. 관찰 된 바와 같이; Antonio Andres의 편집자에게 보낸 편지와 27 : 1791-1796의 저자 답변을 참조하십시오. 2008.


크 랜스 GG, Shuster JJ. Fisher의 정확한 테스트는 얼마나 보수적인가요? 2- 표본 비교 이항 시험의 정량적 평가. 의학 통계 2008; 27 : 3598-3611. ( 추상 )

  • ... 피셔 테스트의 보수성을 진정으로 정량화하기위한 첫 번째 논문.

  • "FET의 테스트 크기는 50 이전의 거의 모든 샘플 크기에서 0.035보다 작았으며 100을 초과하는 샘플 크기에서도 0.05에 근접하지 않았습니다.";

  • "정확한"방법의 보수성;

  • 답을 얻지 못한 비판에 대해서는 Med 28 : 173-179, 2009의 통계 참조


Lydersen S, Fagerland MW, Laake P. 테이블의 연관성에 권장되는 테스트 . 의학 통계 2009; 28 : 1159-1175. ( 추상 )2×2

  • ... 중반 보정이 적용 되지 않으면 Fisher의 정확한 테스트를 사용해서는 안됩니다 .P

  • 무조건 테스트의 가치;

  • 편집자에게 보내는 편지 참조 30 : 890-891; 2011


1
(N-1) / N 수정을 적용하는 방법을 제안 할 수 있습니까? 이 수정 사항을 포함하는 온라인 계산기가 있습니까? 카이 제곱 테스트 결과를 수동으로 조정하여이 수정을 직접 수행 할 수있는 쉬운 방법이 있습니까?
DW

위에 나열된 참조 중 하나가 가장 좋은 방법입니다.
Frank Harrell

1
"거의 피셔의 정확한 테스트보다 거의 항상 정확하다" 고 말하는가 ? 는 "정확한"테스트가 아니기 때문에 그 반대를 말할 것 입니다. χ 2χ2 χ2
Stéphane Laurent

2
"정확한"것으로 레이블을 지정해도 그렇지 않습니다. @suncoolsu의 멋진 설명을 참조하십시오. 위의 모든 설명을 놓쳤습니다. Pearson 테스트는 Pearson이 생각했던 것보다 훨씬 정확합니다. 예를 들어 citeulike.org/user/harrelfe/article/13265687citeulike.org/user/harrelfe/article/13263676 을 참조하십시오 . Fisher의 "정확한"테스트는 실제 유형 I 오류가 청구 된 것보다 크지 않다는 점에서만 정확합니다. 그러나 그것은 청구 된 것보다 작은 것으로 판명되었으므로 II 형 오류가 더 높으므로 전력이 적습니다.
Frank Harrell

나는 정확성의 의미를 알고 있습니다. 정확하지 않은 테스트에서 마음에 들지 않는 정확한 점은 타입 I 오류가 공칭 레벨보다 높을 가능성이 있다는 것입니다. 그러나 당신 말이 맞아요, 나는 당신의 대답과 다른 것을 잘못 읽었습니다 (둘 다 훌륭합니다)
Stéphane Laurent

47

이것은 좋은 질문입니다.

Fisher의 정확한 테스트는 피셔의 실험 설계를 영리하게 사용 하고 데이터 (기본적으로 관찰 된 행 및 한계 총계가있는 테이블)와 확률 분포를 찾는 독창성 (이것이 가장 좋은 예는 아니지만)의 훌륭한 예 중 하나입니다. 더 나은 예를 보려면 여기 를 참조 하십시오 ). "정확한"p- 값을 계산하기 위해 컴퓨터를 사용하는 것이 정확한 답을 얻는 데 확실히 도움이되었습니다.

그러나 실제로 Fisher의 정확한 테스트에 대한 가정을 정당화하기는 어렵습니다. 소위 "정확한"은 "차 ​​시음 실험"또는 2x2 분할 표 사례에서 행 총계와 열 총계, 즉 한계 총계가 설계에 의해 고정된다는 사실에서 비롯됩니다. 이 가정은 실제로 거의 정당화되지 않습니다. 좋은 참고 자료는 여기를 참조 하십시오 .

"정확한"이라는 이름은이 테스트에 의해 주어진 p- 값이 정확하다고 믿게하는데,이 이유 때문에 불행히도 대부분의 경우에 올바르지 않습니다.

  1. 한계가 설계에 의해 고정되지 않으면 (실제로 거의 매번 발생 함) p- 값은 보수적입니다.
  2. 이 테스트에서는 불연속 확률 분포 (특히, 하이퍼 지오메트리 분포)를 사용하므로 특정 컷오프에 대해 "정확한 null 확률", 즉 p- 값을 계산할 수 없습니다.

대부분의 실제 사례에서 우도 비 검정 또는 카이 제곱 검정을 사용하면 Fisher의 정확한 검정과 매우 다른 답변 (p- 값)을 나타내지 않아야합니다. 그렇습니다. 한계가 정해지면 Fisher의 정확한 테스트가 더 나은 선택이지만, 거의 발생하지 않습니다. 따라서 일관성 검사에는 항상 가능성 비율 검정의 카이 제곱 검정을 사용하는 것이 좋습니다.

Fisher의 정확한 테스트가 모든 테이블에 일반화 될 때 유사한 아이디어가 적용되는데, 이는 기본적으로 다변량 하이퍼 지오 메트릭 확률 계산과 동일합니다. 따라서 "정확한"p- 값 외에 항상 카이-제곱 및 우도 비 분포 기반 p- 값을 계산해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.