A의 최근 기사 의 Amstat 뉴스 을 선언합니다 - 저자 (마크 반 데르 Laan와 세리 로즈) 우리는 충분히 큰 표본 크기에 대한, 아니 효과의 귀무 가설이 참하는 모든 연구를 포함하여 사람이 알고 "고 말했다 통계적으로 유의 한 효과. "
글쎄, 나는 그것을 알지 못했다. 이것이 사실입니까? 가설 검정이 대규모 데이터 세트에 가치가 없다는 것을 의미합니까?
A의 최근 기사 의 Amstat 뉴스 을 선언합니다 - 저자 (마크 반 데르 Laan와 세리 로즈) 우리는 충분히 큰 표본 크기에 대한, 아니 효과의 귀무 가설이 참하는 모든 연구를 포함하여 사람이 알고 "고 말했다 통계적으로 유의 한 효과. "
글쎄, 나는 그것을 알지 못했다. 이것이 사실입니까? 가설 검정이 대규모 데이터 세트에 가치가 없다는 것을 의미합니까?
답변:
사실이 아닙니다. 귀무 가설이 참이면 작은 것보다 큰 표본 크기에서 더 자주 기각되지 않습니다. 일반적으로 0.05 (알파)로 설정된 잘못된 거부율이 있지만 표본 크기와 무관합니다. 따라서 문자 그대로 진술은 거짓입니다. 그럼에도 불구하고, 일부 상황 (전체 필드조차도)에서 모든 널이 거짓이므로 N이 충분히 높으면 모두 거부 될 수 있습니다. 그러나 이것은 나쁜 것입니까?
사실 아주 작은 크기의 효과는 매우 큰 샘플 크기에서 "유의 한"것으로 밝혀 질 수 있습니다. 그렇다고 샘플 크기가 크지 않아야한다는 것을 의미하지는 않습니다. 의미는 결과를 해석하는 방식이 테스트의 효과 크기와 민감도에 달려 있다는 것입니다. 효과 크기가 매우 작고 매우 민감한 테스트 인 경우 통계적으로 유의미한 결과가 의미가 없거나 유용하지 않을 수 있음을 인식해야합니다.
일부 사람들은 귀무 가설 검정이 귀무가 true 이면 항상 표본 크기에 대해 선택된 컷오프 포인트와 같은 오류율이 있다고 생각하지 않기 때문에 여기에 R
해당 포인트 를 증명 하는 간단한 시뮬레이션 이 있습니다. N을 원하는만큼 크게하면 유형 I 오류율이 일정하게 유지됩니다.
# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000
ps <- replicate(nsamp, {
#population mean = 0, sd = 1 for both samples, therefore, no real effect
y1 <- rnorm(n, 0, 1)
y2 <- rnorm(n, 0, 1)
tt <- t.test(y1, y2, var.equal = TRUE)
tt$p.value
})
sum(ps < .05) / nsamp
# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.
표시된 답변에 동의하지만 질문을 리디렉션 할 수 있다고 덧붙이고 싶습니다. 가설을 테스트할지 여부는 적어도 일반적으로 데이터의 양과 무관 한 연구 문제입니다. 실제로 가설을 테스트해야한다면 작은 효과를 감지하는 능력을 두려워하지 마십시오. 그러나 먼저 그것이 연구 목표의 일부인지 물어보십시오.
이제 몇 가지 퀴즈가 있습니다.
일부 귀무 가설은 구성 상 절대적으로 사실입니다. 예를 들어 등분 포를위한 의사 난수 생성기를 테스트 할 때 PRG가 실제로 등분 포 (수학적 정리 일 수 있음)이면 널값이 유지됩니다. 아마도 대부분의 사람들은 치료가 실제로 효과가없는 실험에서 무작위 배정으로 인해 더 흥미로운 실제 사례를 생각할 수 있습니다. (나는 esp에 대한 전체 문헌을 예로 들겠습니다. ;-)
고전적인 t- 검정 또는 z- 검정에서와 같이 "단순"null이 "복합"대안에 대해 테스트되는 상황에서는 일반적으로 에 비례하는 샘플 크기가 의 효과 크기를 감지합니다. . 모든 연구에서 이것에 대한 실제 상한이 있으며, 감지 가능한 효과 크기에 대한 실제 하한이 있음을 의미합니다. 따라서 이론적 인 문제로 der Laan과 Rose는 정확하지만 결론을 적용하는 데주의를 기울여야합니다. ϵ
가설 검정은 일반적으로 알파가 0.05보다 작을 때 통계적 유의성을 도출하기 위해 p 값에 중점을 두었습니다. 즉, 충분히 큰 표본 크기를 사용하면 모든 실험에서 결국 귀무 가설을 기각하고 통계적으로 유의미한 작은 차이를 감지 할 수 있습니다.
이것이 제약 회사가 매우 큰 샘플로 FDA 승인을 얻기 위해 임상 시험을 구성하는 이유입니다. 큰 표본은 표준 오차를 0에 가깝게 줄입니다. 이것은 차례로 t 스탯을 인위적으로 높이고 p 값을 0 %에 가깝게 낮 춥니 다.
경제 인센티브에 의해 훼손되지 않은 과학계에 모이고 관련 이해 상충 가설 테스트는 p 값 측정에서 효과 크기 측정으로 이동하고 있습니다. 효과 크기 분석에서 통계적 거리 또는 미분 단위가 표준 오차 대신 표준 편차이기 때문입니다. 그리고 표준 편차는 표본 크기와 완전히 독립적입니다. 반면에 표준 오차는 표본 크기에 전적으로 의존합니다.
따라서 가설 검정에 회의적인 사람은 큰 표본과 p 값 관련 방법론을 기반으로 통계적으로 유의미한 결과에 도달하는 사람은 회의적 일 수 있습니다. 동일한 데이터를 사용하지만 대신 효과 크기 통계 테스트를 사용하여 분석을 다시 실행해야합니다. 그런 다음 효과 크기가 재료로 간주되는지 여부를 관찰하십시오. 이렇게하면 통계적으로 유의 한 차이가 중요하지 않은 효과 크기와 연관되어 있음을 알 수 있습니다. 결과는 통계적으로 유의하지만 "임상 적으로 중요하지 않은"경우 임상 시험 연구자들이 의미하는 바입니다. 그들은 한 가지 치료가 위약보다 낫다는 것을 의미하지만, 그 차이는 너무 미미하여 임상 적 맥락에서 환자에게 아무런 영향을 미치지 않습니다.
(가주 적) 가설 검정은 정확하게 관측 된 데이터의 확률에 대한 문제를 다루거나 귀무 가설이 참이라고 가정 할 때 더 극단적 인 것이 될 수 있습니다. 이 해석은 표본 크기와 무관합니다. 이 해석은 표본의 크기가 500,000 또는 1,000,000인지 여부에 따라 유효합니다.
중요한 경고는 테스트가 샘플링 오류와 만 관련이 있다는 것입니다. 측정 오류, 샘플링 문제, 범위, 데이터 입력 오류 등은 샘플링 오류 범위를 벗어납니다. 표본 크기가 증가함에 따라 작은 표본 추출이 무작위 표본 추출 모델에서 크게 벗어날 수 있으므로 비 샘플링 오류가 더 큰 영향을 미칩니다. 결과적으로 유의성 검정이 덜 유용 해집니다.
이것은 결코 유의성 검정을 나타내는 것은 아닙니다. 그러나 속성에주의해야합니다. 결과는 통계적으로 유의할 수 있습니다. 그러나 표본 크기가 클 때 귀속을 만드는 방법에주의해야합니다. 가설의 생성 과정으로 인한 차이가 샘플링 오류에 해당합니까, 아니면 테스트 통계에 영향을 줄 수있는 여러 비 샘플링 오류 (통계가 고려하지 않은)의 결과입니까?
큰 표본에 대한 또 다른 고려 사항은 결과의 실제적 중요성입니다. 중요한 테스트는 (샘플링 오류가 아닌 경우를 제외하더라도) 실제적인 의미에서 사소한 차이를 암시 할 수 있습니다. 그 결과에 샘플링 모델이 주어지지 않을지라도 문제의 맥락에서 중요한가? 표본이 충분히 크면 몇 달러의 차이로 두 그룹의 소득을 비교할 때 통계적으로 중요한 결과를 얻을 수 있습니다. 의미있는 의미에서 이것이 중요합니까? 통계적 중요성은 올바른 판단과 주제 지식을 대체 할 수 없습니다.
옆으로, 널은 참도 거짓도 아닙니다. 모델입니다. 가정입니다. 우리는 널이 참이라고 가정하고 그 가정의 관점에서 샘플을 평가합니다. 우리의 표본에 이러한 가정이 주어지지 않을 경우, 우리는 대안에 대해 더 많은 신뢰를 둡니다. 실제로 널이 참인지 아닌지에 대한 의문은 유의성 테스트 논리를 오해하는 것입니다.
어떤 의미에서, 대부분의 귀무 가설은 [항상] 거짓입니다 (홀수의 집에 사는 사람들의 그룹은 짝수의 집에 사는 사람들의 그룹과 평균적으로 정확히 같은 수입을 얻지 못합니다 ).
이것은 통계 테스트의 결함이 아닙니다. 추가 정보가 없으면 (이전) 널과의 작은 불일치가 널에 대한 증거로 취해 져야한다는 사실의 결과입니다. 이러한 불일치가 아무리 사소한 것이더라도.
짧은 대답은 "아니오"입니다. 무한 관측 및 다중 가설의 점근 적 체계에서 가설 검정에 대한 연구는 마이크로 어레이 데이터 및 재무 데이터 응용으로 인해 지난 15-20 년 동안 매우 활발하게 활동 해 왔습니다. 긴 답변은 2010 년 Brad Efron이 가르치는 Stat 329의 "대규모 동시 추론"과정 페이지에 있습니다. 전체 장 큰 규모의 가설 검증에 전념.
큰 데이터에 대한 가설 테스트는 차이가 있는지 여부보다는 원하는 수준의 차이를 고려해야합니다. 추정값이 정확히 0이라는 H0에 관심이 없습니다. 일반적인 접근 방식은 귀무 가설과 관측 값의 차이가 주어진 컷오프 값보다 큰지 여부를 테스트하는 것입니다.
mod.test <- function(x1,x2,dif,...){
avg.x1 <- mean(x1)
avg.x2 <- mean(x2)
sd.x1 <- sd(x1)
sd.x2 <- sd(x2)
sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
n <- length(x1)
t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
ncp <- (dif*sqrt(n)/sd.comb)
p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
return(p.val)
}
n <- 5000
test1 <- replicate(100,
t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)
test3 <- replicate(100,
mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)
test4 <- replicate(100,
mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)
다음을 제공합니다.
> table(test1<0.05)
FALSE TRUE
24 76
> table(test2<0.05)
TRUE
100
> table(test3<0.05)
FALSE
100
> table(test4<0.05)
TRUE
100
"가설 테스트가 대규모 데이터 세트에 가치가 없다는 것을 의미합니까?"
아니요, 그런 의미는 아닙니다. 일반적인 메시지는 가설 검정을 수행 한 후에 내려진 결정은 항상 p- 값뿐만 아니라 추정 된 효과 크기를 고려해야한다는 것입니다. 특히, 매우 큰 샘플 크기를 가진 실험에서, 효과 크기를 고려해야 할 필요성은 극적으로 증가합니다. 물론, 일반적으로 절차가 덜 "자동"되기 때문에 사용자는 이것을 좋아하지 않습니다.
이 시뮬레이션 예제를 고려하십시오. 표준 정규 분포에서 백만 개의 관측치로 구성된 임의 표본이 있다고 가정합니다.
n <- 10^6
x <- rnorm(n)
y <- rnorm(n, mean = 0.01)
t.test(x, y)
Welch Two Sample t-test
data: x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.013554059 -0.008009031
sample estimates:
mean of x mean of y
0.0008947038 0.0116762485
이 정도의 두 모집단 평균의 차이 가 우리가 연구하고있는 특정 문제 와 관련 이 있습니까?
그러나이 확실한 가설에는 관심이 없다. 가설 검정으로 실제로하고 싶은 일에 대해 생각하면, 귀무 가설을 대치하기에 더 좋은 것이 있다면 거절해야한다는 것을 곧 알게 될 것입니다. null이 데이터를 설명하지 않더라도 교체가 없으면 데이터를 버리지 않습니다. 이제 항상 널을 "확실한 것"가정으로 대체 하시겠습니까? 아마도 "확실한"가설을 사용하여 데이터 세트를 넘어 일반화 할 수 없기 때문일 수 있습니다. 데이터를 인쇄하는 것 이상의 의미가 없습니다.
따라서 실제로해야 할 행동에 관심이 있다는 가설을 지정해야합니다. 그런 다음 이러한 대안을 서로 비교하기위한 적절한 테스트를 수행하십시오. 허위이거나 사용할 수없는 것으로 판단되는 관련이없는 가설은 아닙니다.
결론은 기본적으로 가설 공간 (실제로 관심이있는 가설)을 지정해야한다는 것입니다. 빅 데이터의 경우 데이터가 너무 많은 분해능을 가지기 때문에이 작업이 매우 중요한 것으로 보입니다. 또한 잘 작동하는 결과를 얻으려면 가설 (포인트와 포인트, 컴파운드와 컴파운드)을 비교하는 것이 중요해 보입니다.
아닙니다. 모든 유용한 포인트 가설 검정은 일관되므로 표본 크기 만 충분히 크고 관련이없는 효과가있는 경우 중요한 결과를 보여줍니다. 통계적 가설 테스트 (위의 Gaetan Lion의 답변에서 이미 언급 한)의 단점을 극복하기 위해 관련성 테스트가 있습니다. 이것들은 동등성 테스트와 비슷하지만 덜 일반적입니다. 관련성 테스트의 경우 관련 최소 효과의 크기가 미리 지정됩니다. 관련성 검정은 효과에 대한 신뢰 구간을 기반으로 할 수 있습니다. 신뢰 구간과 관련성 영역이 분리되어 있으면 널을 거부 할 수 있습니다.
그러나 van der Laan과 Rose는 그들의 진술에서 실제 귀무 가설조차도 연구에서 테스트되었다고 가정합니다. 귀무 가설이 참인 경우, 특히 거시 표본의 경우 기각 가능성은 알파보다 크지 않으며 잘못 지정 되어도 표본 분포가 모집단 분포와 체계적으로 다르다는 것을 알 수 있습니다.
귀하가 언급 한 기사에는 표준 상용주의 테스트에 관한 한 유효한 요점이 있습니다. 주어진 효과 크기에 대한 테스트가 매우 중요한 이유입니다. 예를 들어, 다음은 그룹 B가 그룹 A 및 C와 약간 다른 3 개의 그룹 사이의 anova입니다. r에서 이것을 시도하십시오.
treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
for (i in c(1:reps)){ #repeat anova test ‘reps’ time
treatA=data.frame(treatment="A", val=rnorm(n))
treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
treatC=data.frame(treatment="C", val=rnorm(n))
all_treatment=rbind(treatA, treatB, treatC)
treatment_aov=aov(val~treatment, data=all_treatment)
aov_summary=summary(treatment_aov)
p=aov_summary[[1]][["Pr(>F)"]][1]
temp_df=data.frame(n=n, p=p)
p_mat=rbind(p_mat, temp_df)
}
}
library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()
그들이 의미하는 바는 종종 '단순한'형태를 갖지만 실제 확률 밀도와 일치하지 않는 귀무 가설의 확률 밀도에 대해 가정한다는 것입니다.
이제 작은 데이터 세트의 경우이 효과를보기에 충분한 감도가 없을 수도 있지만 충분히 큰 데이터 세트의 경우 귀무 가설을 기각하고 귀무 가설에 대한 가정이 잘못되었다는 결론을 내리는 대신 새로운 효과가 있다고 결론을 내릴 수 있습니다.
표본 크기에 따라 검정력이 증가합니다 (다른 모든 것은 동일 함).
그러나 "우리는 충분히 큰 표본 크기에 대해 효과가 없다는 귀무 가설을 포함한 모든 연구가 통계적으로 유의 한 효과를 선언 할 것임을 알고 있습니다." 부정확하다.