Fisher의 정확한 테스트에 대해 : 여성이 우유 우선 컵 수를 모르는 경우 어떤 테스트가 적절 했습니까?


18

RA Fisher 의 유명한 차 시음 차 실험에서, 아가씨는 우유-우선 / 차-우선 컵이 몇 개 있는지에 대해 알립니다 (8 컵 중 4 개씩). 이것은 Fisher의 정확한 테스트의 고정 된 한계 총 가정을 존중합니다.

나는 친구와 함께이 테스트를 상상하고 있었지만 생각이 나에게 충격을 받았다. 숙녀가 우유-우선 컵과 차-우선 컵의 차이를 실제로 알 수 있다면, 우유-우유 / 차-우선 컵의 한계 총계와 어느 컵이 어느 것인지 파악할 수 있어야합니다.

질문은 다음과 같습니다. RA 피셔가 아가씨에게 우유-우선 컵과 차-우선 컵의 총 수를 알려주지 않았다면 어떤 테스트를 사용할 수 있었습니까?


4
어떤 사람들은 두 번째 마진이 디자인에 의해 고정되어 있지 않더라도 여성이 차별하는 능력에 대해 거의 정보를 전달하지 못하고 (즉, 거의 부수적) 조건을 갖추어야한다고 주장합니다. 정확한 무조건 테스트 (Barnard에서 처음 제안한 것)는 방해 매개 변수의 모든 가능한 값에 대해 최대 p- 값을 계산해야하기 때문에 더 복잡합니다.
Scortchi-Monica Monica 복원

4
실제로 Barnard의 테스트 에는 Wikipedia 페이지가 있습니다.
Scortchi-Monica Monica 복원

@Scortchi 더 말할 것이 있습니까? 나는 그것에 아무것도 추가하지 않을 것입니다 (명백하고 간결하게 말하지 않을 수도 있습니다). 두 의견에 걸쳐 훌륭한 답변이 있다고 생각합니다.
Glen_b-복지국 모니카

1
왕립 통계 학회지 (Jours of the Royal Statistical Society)의 저널 인 Yates, F. (1984)의 "2 × 2 비상 대표에 대한 유의성 검정"을 살펴볼 가치가있다 . 시리즈 A (일반) , Vol. 147, No. 3, 426-463 쪽.
Glen_b-복귀 모니카

1
평균적으로 우유와 함께 4 잔 이상의 차와 4 잔을 제외하고는 정확하게 추측 할 수있는 의 확률이라고 말할 수 있습니다 . & 그녀의 정확한 추측의 총 분포는 이항 분포를 따르는 것보다 약 4에 더 집중되어 있습니다. 그러나 그녀가 확률로 "우유"를 추측 하면 차에 우유가있을 때 & 없을 때 확률로 정확하게 추측 할 수 있습니다. 그녀의 총 정확한 추측 중 이항 분포를 따릅니다. 그래서 ... 고려하는 귀찮은 매개 변수가 1121212
Scortchi - 분석 재개 모니카

답변:


16

어떤 사람들은 두 번째 마진이 디자인에 의해 고정되어 있지 않더라도 여성이 차별하는 능력에 대해 거의 정보를 전달하지 못하고 (즉, 거의 부수적) 조건을 갖추어야한다고 주장합니다. 정확한 무조건 테스트 ( Barnard에서 처음 제안 )는 귀무 가설 하에서 일반적인 Bernoulli 확률 즉, 귀무 가설 매개 변수의 모든 가능한 값에 대해 최대 p- 값을 계산해야하기 때문에 더 복잡합니다. 보다 최근에, 방해 매개 변수에 대한 신뢰 구간에 걸쳐 p- 값을 최대화하는 것이 제안되었다 : Berger (1996), "Confidence Interval p Values에서 더 강력한 테스트", The American Statistician , 50 , 4; 이 아이디어를 사용하여 정확한 크기의 정확한 테스트를 구성 할 수 있습니다.

Fisher의 정확한 테스트는 Edgington의 의미에서 무작위 배정 테스트로도 발생합니다. 실험 처리의 무작위 할당은 이러한 할당의 순열에 대한 테스트 통계 분포를 귀무 가설을 테스트하는 데 사용할 수 있습니다. 이 접근법에서 여성의 결정은 고정 된 것으로 간주됩니다 (및 우유-첫 번째 컵과 차-첫 번째 컵의 총계는 물론 순열에 의해 보존됩니다).


Barnard::barnardw.test()여기서 사용할 수 있습니까 ? 실제로 계산의 복잡성에 어떤 차이가있을 수 있습니까?
krlmlr

나는 그 패키지에 익숙하지 않지만, 당신이 링크 한 도움말 페이지는 내가 말하고있는 테스트와 정확히 참조로 연결된다. 도 참조하십시오 Exact. 계산의 복잡성에 대해서는 잘 모르겠습니다. 사용되는 최대화 알고리즘에 달려 있습니다.
Scortchi-Monica Monica 복원

2

오늘 저는 RA Fisher의 "실험 설계"의 첫 번째 장을 읽었으며,이 단락 중 하나를 통해 제 질문의 근본적인 결함을 알게되었습니다.

즉, 숙녀가 우유 우선 컵과 차 우선 컵의 차이를 실제로 말할 수 있다고하더라도 나는 그녀가 "무한한 양의 실험으로"그 능력을 가지고 있음을 증명할 수는 없습니다 . 이런 이유로 실험자로서, 그녀는 능력이 없다는 가정 (널 가설)을 가정하고 비 승인을 시도해야한다. 그리고 원래 실험 설계 (피셔 정확한 테스트)는 충분하고 효율적이며 정당한 절차입니다.

다음은 RA Fisher의 "The Design of Experiments"에서 발췌 한 내용입니다.

실험이 대상이 두 가지 다른 종류의 물체 사이에 감각적 차별을 가지고 있지 않다는 가설을 반증 할 수 있다면, 반대의 가설을 입증 할 수 있어야한다고 주장 할 수있다. 그러나이 가설은 합리적이거나 사실 일 수 있지만 정확하지 않기 때문에 실험으로 검정 할 귀무 가설로 부적합합니다. 만약 그녀의 판단에서 그 주제가 결코 틀리지 않을 것이라고 주장된다면 우리는 다시 한번 정확한 가설을 가지고 있으며,이 가설은 단 한 번의 실패로 반증 될 수 있지만, 어느 정도의 실험으로 증명 될 수 없음을 쉽게 알 수있다 .


1

Barnard의 검정은 귀무 가설 하에서 귀찮은 모수를 알 수없는 경우에 사용됩니다.

그러나 레이디 테이스팅 테스트에서는 귀무 가설 하에서 귀찮은 매개 변수를 0.5로 설정할 수 있다고 주장 할 수 있습니다 (알지 못하는 레이디는 컵을 올바르게 추측 할 확률이 50 %입니다).

그런 다음 귀무 가설 하에서 올바른 추측의 수는 이항 분포가됩니다. 각 컵에 대해 50 % 확률로 8 개의 컵을 추측합니다.


다른 경우에는 귀무 가설에 대한이 사소한 50 % 확률이 없을 수도 있습니다. 고정 마진이 없으면 그 확률이 ​​무엇인지 모를 수도 있습니다. 이 경우 Barnard의 테스트가 필요합니다.


레이디 시음 차 테스트에서 Barnard의 테스트를 수행하더라도 p- 값이 가장 높은 성가신 매개 변수가 0.5이므로 사소한 이항 테스트 결과가 나오기 때문에 어쨌든 50 %가됩니다 (결과가 모두 정확한 추측 일 경우). 실제로는 4 개의 우유 첫 컵과 4 개의 차 첫 컵에 대한 2 개의 이항 테스트의 조합입니다.

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

아래는 더 복잡한 결과를 얻는 방법입니다 (예 : 2와 4와 같은 모든 추측이 정확하지 않은 경우).

(Barnard의 테스트 사용은 4-2 결과의 경우 p = 0.686이 아니라고 주장 할 수있는 성가신 매개 변수가 올바르지 않은 경우 '차 우선'에 대한 50 % 확률의 p- 값은 0.08203125입니다. 지역을 정의하는 것은 쉽지 는 않지만 다른 지역을 고려할 때 Wald의 통계를 기반으로하는 지역을 고려하면 훨씬 작아집니다. )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.