선험적 전력 분석은 본질적으로 쓸모 없는가?


23

저는 지난주 에 성격 및 사회 심리학 협회 회의에 참석하여 Uri Simonsohn이 선험적 힘 분석을 사용하여 표본 크기를 결정하는 것은 그 결과가 가정에 너무 민감하기 때문에 본질적으로 쓸모가 없다는 전제와의 대화를 보았습니다.

물론,이 주장은 내가 방법론 수업에서 배운 것과 많은 저명한 방법 론자들 (대부분 Cohen, 1992 ) 의 권고에 위배 되므로, 우리는 그의 주장과 관련된 증거를 제시했다. 아래에서이 증거 중 일부를 재현하려고했습니다.

간단하게하기 위해 두 개의 관측 그룹이있는 상황을 상상하고 효과 크기 (표준 평균 차이로 측정)가 합니다. 표준 전력 계산 ( 아래 패키지 를 사용하여 완료 ) 은이 설계로 80 % 전력을 얻기 위해 관측치 가 필요하다는 것을 알려줍니다 .128.5Rpwr128

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

그러나 일반적으로 예상되는 효과의 크기에 대한 우리의 추측은 (적어도 나의 연구 분야 인 사회 과학에서는) 아주 거친 추측입니다. 효과의 크기에 대한 우리의 추측이 조금 벗어나면 어떻게됩니까? 빠른 전력 계산은 효과의 크기 인 경우 있음을 알려줍니다 대신 , 당신이 필요로하는 - 관찰 당신의 효과 크기에 대한 충분한 힘을 가지고해야한다는 번 숫자 . 마찬가지로 효과의 크기가 이면 효과 크기가 을 감지하기에 충분한 검정력이 필요한 것의 70 % 인 관측치 만 필요합니다.0.5 200 1.56 0.5 0.6 90 0.50 90 (200).4.52001.56.5.690.50. 실질적으로 말하면, 추정 관측 범위가 매우 크다 - 에 .90200

이 문제에 대한 한 가지 반응은 효과의 크기를 정확히 추측하는 대신 과거 문헌이나 파일럿 테스트를 통해 효과의 크기에 대한 증거를 수집한다는 것입니다. 물론 파일럿 테스트를 수행하는 경우 파일럿 테스트가 충분히 작아서 단순히 연구를 실행하는 데 필요한 샘플 크기를 결정하기 위해 단순히 연구 버전을 실행하지 않는 것이 좋습니다 (예 : 파일럿 테스트에 사용 된 샘플 크기가 연구의 샘플 크기보다 작을 수 있습니다).

Uri Simonsohn은 전력 분석에 사용 된 효과 크기를 결정하기위한 파일럿 테스트는 쓸모 없다고 주장했습니다. 내가 실행 한 다음 시뮬레이션을 고려하십시오 R. 이 시뮬레이션은 모집단 효과 크기가 라고 가정합니다 . 그런 다음 크기 40의 "파일럿 테스트" 를 수행하고 각 10000 개의 파일럿 테스트에서 권장되는 을 표로 작성합니다 .1000 N.51000N

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

아래는이 시뮬레이션을 기반으로 한 밀도 플롯입니다. 이미지를 더 해석하기 쉽도록 개 이상의 여러 관측 값을 권장하는 개의 파일럿 테스트를 생략했습니다 . 시뮬레이션의 덜 극단적 인 결과에 초점을 맞추더라도 파일럿 테스트 에서 권장 하는 에는 큰 차이가 있습니다.500 N 1,000204500Ns1000

여기에 이미지 설명을 입력하십시오

물론, 저는 설계가 복잡 해짐에 따라 가정 문제에 대한 민감성이 나빠질 것이라고 확신합니다. 예를 들어, 랜덤 효과 구조의 사양을 요구하는 설계에서, 랜덤 효과 구조의 특성은 설계의 힘에 극적인 영향을 미칩니다.

그렇다면이 논쟁에 대해 어떻게 생각하십니까? 선험적 전력 분석은 본질적으로 쓸모 없는가? 그렇다면 연구자들은 연구 규모를 어떻게 계획해야합니까?


10
이것은 전력 분석 자체가 아니라 마음없는 전력 분석을 비난하는 것처럼 들립니다 . 더 큰 문제는 이것이 밀짚 사람에 대한 공격인지 아니면 실제로 가정에 대한 민감도를 고려하지 않고 전력 분석 (또는 다른 분석)을 수행하는 많은 사람들이 있는지 여부입니다. 후자가 사실이라면 그것들을 밝히는 것이 좋지만, 실험을 계획하려는 모든 노력을 포기할 정도로 낙담하지 않기를 바랍니다!
whuber

2
제목 질문을 구문 적 으로 표현할 때 구문상의 유사성 때문 만이 아니라, 상당히 많은 stats.stackexchange.com/q/2492/32036 을 상기시켜줍니다. 가정을 이해하는 방법에 대한 질문이 있습니다. 둘 다의 주요 요점은 그들의 가정이 (a) 절대적으로 중요하거나 (b) 완전히 무시할 수 있다는 전적으로 또는 전혀 판단하지 않고 편견에 대한 이러한 분석의 민감도를 이해하는 것 입니다. 이것은 일반적으로 유용하고 무해한 추론의 열쇠입니다. 나는 그것이 밀짚 사람이 아니라는 것을 두려워한다. 사람들은 알지 못하거나 돌볼 수 없을 때 절대적으로 너무 자주 생각합니다.
Nick Stauner

5
나는 다른 사람들의 권고에 관심이 있었기 때문에 질문에 이것을 추가하고 싶지 않았지만, 대화가 끝날 때 Uri Simonsohn의 권고는 연구가 당신이 관심을 가질 가장 작은 영향을 감지하도록 힘을주는 것이 었습니다.
Patrick S. Forscher

9
@ PatrickS.Forscher : 모든 말을 마치고 나서, 그는 사전 전력 분석을 믿습니다. 그는 단지 효과의 크기가 현명하게 선택해야합니다 생각 :하지 추측이 무엇으로 할 수 있을 것이 아니라 최소한의 값은 약 신경 것입니다. 전력 분석에 대한 교과서 설명과 거의 비슷합니다. 실제로 유의 한 차이로 생각되는 것이 통계적으로 유의 한 차이로 표시 될만큼 충분한 데이터가 있는지 확인하십시오.
Wayne

2
우리가 대화의 틀을 잡는 방식에 따르면, 그는 선험적 힘 분석은 보통 사회 과학에서 수행되는 것처럼 쓸모가 없지만 다른 곳에서는 가르치지 않을 것이라고 생각합니다. 실제로, 나는 실제 분석에서 내가 어떤 효과에 관심을 두지 않고 내가 찾고있는 효과의 크기에 대한 합리적인 추측에 근거하여 나의 힘 분석에 기초를 배웠다.
Patrick S. Forscher

답변:


20

여기서 기본적인 문제는 사실이며 통계에서 잘 알려져 있습니다. 그러나 그의 해석 / 주장은 극단적입니다. 논의해야 할 몇 가지 문제가 있습니다.

먼저 변화에 따라 전력이 매우 빠르게 변하지 않습니다 . (특히, 이는 의 함수로 변경 되므로 샘플링 분포의 표준 편차를 절반으로 줄이려 면 등 을 4 배로 해야합니다 .) 그러나 검정력은 효과 크기에 상당히 민감합니다. 또한 추정 된 검정력이 가 아니면 효과 크기의 변화에 ​​따른 검정력의 변화는 대칭이 아닙니다. 당신이하려는 경우 전력, 전력은 코헨의 감소와 더 빠르게 감소 는 코헨의 동등한 증가와 함께 증가보다 . 예를 들어, 언제부터 와N N50%80%ddd=.5N=1287.9%5.5%.116.9%.112.6%NN50%80%ddd=.5N=128, 관측치가 20 개 적은 경우 검정력은 감소 하지만 관측치가 20 개 이상인 경우 검정력은 합니다. 반면, 실제 효과 크기가 더 작 으면 검정력은 낮아 지지만 높이면 높아집니다. 이 비대칭과 다른 감도는 아래 그림에서 볼 수 있습니다. 7.9%5.5%.116.9%.112.6%

여기에 이미지 설명을 입력하십시오

메타 분석 또는 파일럿 연구와 같이 이전 연구에서 추정 한 효과로 작업하는 경우 실제 효과 크기에 대한 불확실성을 검정력 계산에 포함시키는 것이 해결책입니다. 이상적으로는 가능한 효과 크기의 전체 분포에 걸쳐 통합하는 것이 필요합니다. 이것은 아마도 대부분의 응용 분야에서 너무 다리가 될 수 있지만, 빠르고 더러운 전략은 몇 가지 가능한 효과 크기, 추정 된 Cohen의 + 또는-1과 2 표준 편차로 거듭 제곱을 계산 한 다음 확률을 사용하여 가중 평균을 얻는 것입니다 가중치로서 이들 Quantile의 밀도. d

전에 공부 한 적이없는 것에 대한 연구를하고 있다면, 이것은 중요하지 않습니다. 당신은 당신이 어떤 효과 크기에 관심이 있는지 알고 있습니다. 실제로 그 효과는 크거나 크거나 더 작습니다 (아마도 0). 검정력 분석에서 관심있는 효과 크기를 사용하면 유효하며 가설을 적절하게 테스트 할 수 있습니다. 관심있는 효과 크기가 실제 값이면 의 '중요도'확률이 있습니다. 샘플링 오류로 인해 연구에서 실현 된 효과 크기가 더 작 으면 (크게) 결과는 덜 중요하거나 중요하지 않습니다. 그것이 작동하는 방식입니다. 80%

둘째, 권력 분석 (사전 또는 기타)이 가정에 의존한다는 광범위한 주장에 관해, 그 주장을 어떻게해야하는지 명확하지 않다. 물론 그렇습니다. 다른 모든 것들도 마찬가지입니다. 전력 분석을 실행하지 않고 모자에서 선택한 숫자를 기반으로 데이터를 수집 한 다음 데이터를 분석해도 상황이 개선되지 않습니다. 또한 결과 분석은 모든 분석 (파워 또는 기타)이 항상 그렇듯이 가정에 의존합니다. 대신 데이터를 계속 수집하고 좋아하는 그림이 나올 때까지 계속 분석하기로 결정하면 훨씬 덜 유효합니다 (스피커에게는 보이지 않는 가정이 수반되지만). 그럼에도 불구하고). 간단히 말해서연구 및 데이터 분석에서 가정이 이루어지고 있다는 사실에 대한 방법은 없습니다 .

다음과 같은 관심 자원을 찾을 수 있습니다.


1
Uri Simonsohn의 주장은 가정 자체가 나쁘다는 것이 아니라 일반적으로 검정력 분석이 표본 크기 계획에 쓸모가 없도록 가정에 너무 민감하다는 것입니다. 그러나 귀하가 제공 한 참조 (+1)와 마찬가지로 귀하의 요점은 우수합니다.
Patrick S. Forscher

편집 한 내용은이 훌륭한 답변을 계속 향상시킵니다. :)
Patrick S. Forscher

3
나는 이것이 훌륭한 답변이라는 것에 동의하며, 나는 당신과 다른 사람들에게 내가이 주제에 쓴 최근 블로그 게시물에서 당신을 인용했다는 것을 알리고 싶었습니다
Jake Westfall

2
@JakeWestfall, 좋은 포스트! 다른 말로, 쿠키를 연구 할 때 주로 쿠키를 먹음으로써 그렇게합니까? 이러한 프로젝트에 대한 통계 컨설턴트가 필요하십니까?
gung-모니 티 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.