저는 지난주 에 성격 및 사회 심리학 협회 회의에 참석하여 Uri Simonsohn이 선험적 힘 분석을 사용하여 표본 크기를 결정하는 것은 그 결과가 가정에 너무 민감하기 때문에 본질적으로 쓸모가 없다는 전제와의 대화를 보았습니다.
물론,이 주장은 내가 방법론 수업에서 배운 것과 많은 저명한 방법 론자들 (대부분 Cohen, 1992 ) 의 권고에 위배 되므로, 우리는 그의 주장과 관련된 증거를 제시했다. 아래에서이 증거 중 일부를 재현하려고했습니다.
간단하게하기 위해 두 개의 관측 그룹이있는 상황을 상상하고 효과 크기 (표준 평균 차이로 측정)가 합니다. 표준 전력 계산 ( 아래 패키지 를 사용하여 완료 ) 은이 설계로 80 % 전력을 얻기 위해 관측치 가 필요하다는 것을 알려줍니다 .128R
pwr
require(pwr)
size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")
그러나 일반적으로 예상되는 효과의 크기에 대한 우리의 추측은 (적어도 나의 연구 분야 인 사회 과학에서는) 아주 거친 추측입니다. 효과의 크기에 대한 우리의 추측이 조금 벗어나면 어떻게됩니까? 빠른 전력 계산은 효과의 크기 인 경우 있음을 알려줍니다 대신 , 당신이 필요로하는 - 관찰 당신의 효과 크기에 대한 충분한 힘을 가지고해야한다는 번 숫자 . 마찬가지로 효과의 크기가 이면 효과 크기가 을 감지하기에 충분한 검정력이 필요한 것의 70 % 인 관측치 만 필요합니다.0.5 200 1.56 0.5 0.6 90 0.50 90 (200). 실질적으로 말하면, 추정 관측 범위가 매우 크다 - 에 .
이 문제에 대한 한 가지 반응은 효과의 크기를 정확히 추측하는 대신 과거 문헌이나 파일럿 테스트를 통해 효과의 크기에 대한 증거를 수집한다는 것입니다. 물론 파일럿 테스트를 수행하는 경우 파일럿 테스트가 충분히 작아서 단순히 연구를 실행하는 데 필요한 샘플 크기를 결정하기 위해 단순히 연구 버전을 실행하지 않는 것이 좋습니다 (예 : 파일럿 테스트에 사용 된 샘플 크기가 연구의 샘플 크기보다 작을 수 있습니다).
Uri Simonsohn은 전력 분석에 사용 된 효과 크기를 결정하기위한 파일럿 테스트는 쓸모 없다고 주장했습니다. 내가 실행 한 다음 시뮬레이션을 고려하십시오 R
. 이 시뮬레이션은 모집단 효과 크기가 라고 가정합니다 . 그런 다음 크기 40의 "파일럿 테스트" 를 수행하고 각 10000 개의 파일럿 테스트에서 권장되는 을 표로 작성합니다 .1000 N
set.seed(12415)
reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)
for(i in 1:reps)
{
x <- rep(c(-.5, .5), pilot_n_per_group)
y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
# Calculate the standardized mean difference
size <- (mean(y[x == -.5]) - mean(y[x == .5])) /
sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)
n <- 2 * pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")$n
ns[i] <- n
}
아래는이 시뮬레이션을 기반으로 한 밀도 플롯입니다. 이미지를 더 해석하기 쉽도록 개 이상의 여러 관측 값을 권장하는 개의 파일럿 테스트를 생략했습니다 . 시뮬레이션의 덜 극단적 인 결과에 초점을 맞추더라도 파일럿 테스트 에서 권장 하는 에는 큰 차이가 있습니다.500 N 의 1,000
물론, 저는 설계가 복잡 해짐에 따라 가정 문제에 대한 민감성이 나빠질 것이라고 확신합니다. 예를 들어, 랜덤 효과 구조의 사양을 요구하는 설계에서, 랜덤 효과 구조의 특성은 설계의 힘에 극적인 영향을 미칩니다.
그렇다면이 논쟁에 대해 어떻게 생각하십니까? 선험적 전력 분석은 본질적으로 쓸모 없는가? 그렇다면 연구자들은 연구 규모를 어떻게 계획해야합니까?