공식과 R의 fisher.test의 승산 비가 다른 이유는 무엇입니까? 어느 것을 선택해야합니까?


14

다음 예에서

> m = matrix(c(3, 6, 5, 6), nrow=2)
> m
     [,1] [,2]
[1,]    3    5
[2,]    6    6
> (OR = (3/6)/(5/6))    #1
[1] 0.6
> fisher.test(m)        #2

    Fisher's Exact Test for Count Data

data:  m 
p-value = 0.6699
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
 0.06390055 5.07793271 
sample estimates:
odds ratio 
 0.6155891 

확률 비 (# 1) "수동으로"0.600; 피셔의 정확한 테스트 결과 중 하나 인 (# 2), 0.616.

왜 같은 가치를 얻지 못했습니까?

확률 비율을 계산하는 몇 가지 방법이 존재하는 이유와 가장 적합한 방법을 선택하는 방법은 무엇입니까?

답변:


10

도움말 페이지에서 fisher.test():

무조건 MLE (샘플 확률 비율) 대신 조건부 MLE (Maximum Likelihood Estimate)이 사용됩니다.


3

여기서 논의에 추가하기 위해, 이 "조건부"가능성에서 정확히 어떤 조건이 설정되어 있는지 물어 보는 것이 좋습니다. 피셔 테스트는 테이블의 모든 마진이 고정 된 것으로 간주 하는 반면 로지스틱 회귀 모델 (및 로지스틱 모델의 점수 테스트 인 해당 Pearson 카이-제곱 테스트)은 고정 될 한 마진 만 고려 한다는 점에서 다른 범주 형 분석과 다릅니다. .

피셔 테스트는 초 지오메트리 분포를 4 개의 각 셀에서 관찰 된 카운트에 대한 확률 모델로 간주합니다. 초기 하 분포는 원래 승산 비의 분포가 연속적이지 않기 때문에 종종 최대 가능성 추정치와 다른 OR을 얻습니다.


2
나는 당신의 대답이 어떻게이 특별한 가능성이 어떻게 일어날 지 명확하게 생각하지 않는다고 생각합니다. 예를 들어, 제품 이항 법을 사용하여 데이터 생성 프로세스를 모델링하는 경우 월계수의 비 중앙 초 지오메트리 분포 (마진)를 사용하여 모델링 할 때 얻는 한계 값과는 다른 한계 계수 (& MLE)를 얻을 수 있습니다. 두 경우 모두 합계는 "고정 된 것으로 간주됩니다".
Scortchi-Monica Monica 복원

1

두 번째 질문에 답하기 위해 biostats는 나의 장점이 아니지만 다중 확률 비율 통계의 이유는 샘플링 설계 및 실험 설계를 설명하는 것이라고 생각합니다.

여기서는 조건부 MLE과 무조건 승산 비의 차이가 다른 이유와 다른 유형에 대해 약간의 이해를 제공하는 세 가지 참조를 찾았습니다.

  1. 고정 마진이있는 2 × 2 테이블의 조합에서 공통 승산 비의 점 및 간격 추정

  2. 쌍이 짝을 이루고 층화 된 샘플의 상대 위험 추정에 대한 바이어스의 영향

  3. 일반적인 승률 비율의 조건부 최대 가능성 추정에 대한 비교 연구


3
그 언급이 말한 것을 최소한 요약하면 유용합니다.
Scortchi-Monica Monica 복원

@Scortchi는 동의했다. 나는 일에 바빴고 첫 페이지 나 두 페이지를 읽을 수있는 기회를 가졌다. 이번 주말에 각각의 요약을 추가하겠습니다.
Jon

@Jon 당신이 할 수 있다면, 그 간단한 요약을 추가하는 것이 유용 할 것입니다
Glen_b-복지국 모니카

@Jon 나는 하나의 질문 만했다. 내가 원래 질문을 게시 한 후 4 년 후에 두 번째 질문을 추가 한 사람은 블리였습니다. 두 번째 질문을 참조하면서 bli의 성가신 편집 내용을 되 돌리지는 않지만 더 이상 답변을 수락하는 방법을 잘 모르겠습니다.
winerd December
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.