대규모 데이터 세트가 가설 ​​검정에 적합하지 않습니까?


129

A의 최근 기사Amstat 뉴스 을 선언합니다 - 저자 (마크 반 데르 Laan와 세리 로즈) 우리는 충분히 큰 표본 크기에 대한, 아니 효과의 귀무 가설이 참하는 모든 연구를 포함하여 사람이 알고 "고 말했다 통계적으로 유의 한 효과. "

글쎄, 나는 그것을 알지 못했다. 이것이 사실입니까? 가설 검정이 대규모 데이터 세트에 가치가 없다는 것을 의미합니까?


10
+1 :이 질문은 일반적으로 몇 가지 흥미로운 관점을 나타냅니다.
user603

7
대용량 데이터 세트에 대한 자세한 내용은 stats.stackexchange.com/q/7815/919나와 있습니다. (초점은 회귀 모델링에 있습니다.)
whuber


8
큰 표본으로 인해 가설 검정이 잘못된 도구라고 생각하면 가설 검정은 실제로 작은 표본에서도 올바른 질문에 대답하지 않은 것입니다 . 대형 표본 크기에서는 잘못된 것이 더 분명해 졌지만 동일한 고려 사항은 관련이 있습니다. . 매우 작은 효과 크기에서의 중요한 결과가 "음, 그것이 내가 원하는 것이 아니고, 그것이 중요한지 알려주고 싶었다"고 말하면, 가설 검정은 시작하기에 잘못된 도구 일뿐입니다. 그런 종류의 문제에 더 적합한 도구 (예 : 신뢰 구간, 동등성 테스트 등)가 있습니다.
Glen_b

답변:


91

사실이 아닙니다. 귀무 가설이 참이면 작은 것보다 큰 표본 크기에서 더 자주 기각되지 않습니다. 일반적으로 0.05 (알파)로 설정된 잘못된 거부율이 있지만 표본 크기와 무관합니다. 따라서 문자 그대로 진술은 거짓입니다. 그럼에도 불구하고, 일부 상황 (전체 필드조차도)에서 모든 널이 거짓이므로 N이 충분히 높으면 모두 거부 될 수 있습니다. 그러나 이것은 나쁜 것입니까?

사실 아주 작은 크기의 효과는 매우 큰 샘플 크기에서 "유의 한"것으로 밝혀 질 수 있습니다. 그렇다고 샘플 크기가 크지 않아야한다는 것을 의미하지는 않습니다. 의미는 결과를 해석하는 방식이 테스트의 효과 크기와 민감도에 달려 있다는 것입니다. 효과 크기가 매우 작고 매우 민감한 테스트 인 경우 통계적으로 유의미한 결과가 의미가 없거나 유용하지 않을 수 있음을 인식해야합니다.

일부 사람들은 귀무 가설 검정이 귀무가 true 이면 항상 표본 크기에 대해 선택된 컷오프 포인트와 같은 오류율이 있다고 생각하지 않기 때문에 여기에 R해당 포인트 를 증명 하는 간단한 시뮬레이션 이 있습니다. N을 원하는만큼 크게하면 유형 I 오류율이 일정하게 유지됩니다.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

8
+1 : 사실, 여기에있는 세 가지 답변은 서로 논리적으로 일치합니다.
user603

1
마지막으로 (통계가 아닌) 교수가 오래 전에 나에게 말한 내용의 폐기를 발견했습니다.
Jase

1
@ 심파 N이 증가함에 따라 SE가 감소한다고해서 항상 N이 큰 효과를 발견한다는 의미는 아닙니다 (시뮬레이션 참조). SE가 감소함에 따라 효과 추정치의 품질이 높아지고 있음을 명심하십시오. 모집단 효과가 없으면 0에 가까우며 차이가 없을 가능성이 큽니다. 실제로, p- 값의 분포는 널이 참일 때마다 표본 크기에 관계없이 평탄합니다 (자체 시뮬레이션을 작성하십시오). 답에는 모순이 없습니다.
John

4
그렇다면 당신은 틀릴 것입니다. 다른 답변도 여기에서 읽으십시오. 시뮬레이션과 가설 테스트 간의 관계를 따를 수 없으므로 표준 오류가 감소하고 t가 증가하고 p가 감소한다는 기본 주장 만 지적 할 수 있습니다. 효과가 일정하게 유지되는 경우에만 해당됩니다. 그러나 효과는 무작위 샘플이며 실제 효과가 0이면 N이 증가함에 따라 관측 된 효과는 감소하는 경향이 있습니다. 따라서 N이 증가함에 따라 SE가 감소하면 t- 값의 분자도 낮아지기 때문에 t- 값을 증가시키지 않습니다.
John

1
rnorm이 비합리적인 숫자를 생성 할 수 없다는 사실은 예제와 관련이 없습니다. 평균 0과 sd 1에서 정확하게 정상으로 나오지 않더라도 두 샘플 모두 동일하지 않습니다. 제 1 종 오류율은 .05에서 약간 떨어질 수 있지만 N에 관계없이 일정하게 유지되어야합니다. 이것이 문제가되지 않는 별도의 것을 선택할 수 있었기 때문에 모든 시뮬레이션에 해당되는 것은 아닙니다. (만약 당신이 난해한 문제를 제기하고 싶다면 의사 난수를 다루어야합니다.)
John

31

표시된 답변에 동의하지만 질문을 리디렉션 할 수 있다고 덧붙이고 싶습니다. 가설을 테스트할지 여부는 적어도 일반적으로 데이터의 양과 무관 한 연구 문제입니다. 실제로 가설을 테스트해야한다면 작은 효과를 감지하는 능력을 두려워하지 마십시오. 그러나 먼저 그것이 연구 목표의 일부인지 물어보십시오.

이제 몇 가지 퀴즈가 있습니다.

  • 일부 귀무 가설은 구성 상 절대적으로 사실입니다. 예를 들어 등분 포를위한 의사 난수 생성기를 테스트 할 때 PRG가 실제로 등분 포 (수학적 정리 일 수 있음)이면 널값이 유지됩니다. 아마도 대부분의 사람들은 치료가 실제로 효과가없는 실험에서 무작위 배정으로 인해 더 흥미로운 실제 사례를 생각할 수 있습니다. (나는 esp에 대한 전체 문헌을 예로 들겠습니다. ;-)

  • 고전적인 t- 검정 또는 z- 검정에서와 같이 "단순"null이 "복합"대안에 대해 테스트되는 상황에서는 일반적으로 에 비례하는 샘플 크기가 의 효과 크기를 감지합니다. . 모든 연구에서 이것에 대한 실제 상한이 있으며, 감지 가능한 효과 크기에 대한 실제 하한이 있음을 의미합니다. 따라서 이론적 인 문제로 der Laan과 Rose는 정확하지만 결론을 적용하는 데주의를 기울여야합니다. ϵ1/ϵ2ϵ


이 모든 것이 제 1 종 오류 대 제 2 종 오류 (또는 전력)의 문제가 아닙니까? 유형 I 오류 확률 ( )을 0.05로 수정하면 분명히 (이산 된 경우는 제외) 표본이 큰지 여부는 0.05가됩니다. 그러나 주어진 제 1 종 오류 확률 (예 : 검정력 또는 효과가있을 때 효과를 탐지 할 확률)은 표본 크기가 클수록 더 큽니다. α

@fcop 귀하의 의견은 정확하지만 다른 답변으로 안내되는 것 같습니다. 그들은 이것의 요점을 놓치고 있는데, 이는 모든 통계 분석이 가설 검정 일 필요는 없다는 것을 암시하는 것입니다. 형식 I 및 II 오류는 공식 가설 테스트를 수행 할 때만 의미가 있습니다.
whuber

H0:μ=1H1:μ1

@fcop 설명해 주셔서 감사합니다. 나는 당신의 추론에 동의합니다 : null이 참이면 건설에 의해 큰 연구조차도 시험의 크기와 거의 같은 기회로 큰 영향을 줄 것입니다. 즉, 그들은 큰 영향을 미치지 않을 것입니다.
whuber

19

가설 검정은 일반적으로 알파가 0.05보다 작을 때 통계적 유의성을 도출하기 위해 p 값에 중점을 두었습니다. 즉, 충분히 큰 표본 크기를 사용하면 모든 실험에서 결국 귀무 가설을 기각하고 통계적으로 유의미한 작은 차이를 감지 할 수 있습니다.

이것이 제약 회사가 매우 큰 샘플로 FDA 승인을 얻기 위해 임상 시험을 구성하는 이유입니다. 큰 표본은 표준 오차를 0에 가깝게 줄입니다. 이것은 차례로 t 스탯을 인위적으로 높이고 p 값을 0 %에 가깝게 낮 춥니 다.

경제 인센티브에 의해 훼손되지 않은 과학계에 모이고 관련 이해 상충 가설 테스트는 p 값 측정에서 효과 크기 측정으로 이동하고 있습니다. 효과 크기 분석에서 통계적 거리 또는 미분 단위가 표준 오차 대신 표준 편차이기 때문입니다. 그리고 표준 편차는 표본 크기와 완전히 독립적입니다. 반면에 표준 오차는 표본 크기에 전적으로 의존합니다.

따라서 가설 검정에 회의적인 사람은 큰 표본과 p 값 관련 방법론을 기반으로 통계적으로 유의미한 결과에 도달하는 사람은 회의적 일 수 있습니다. 동일한 데이터를 사용하지만 대신 효과 크기 통계 테스트를 사용하여 분석을 다시 실행해야합니다. 그런 다음 효과 크기가 재료로 간주되는지 여부를 관찰하십시오. 이렇게하면 통계적으로 유의 한 차이가 중요하지 않은 효과 크기와 연관되어 있음을 알 수 있습니다. 결과는 통계적으로 유의하지만 "임상 적으로 중요하지 않은"경우 임상 시험 연구자들이 의미하는 바입니다. 그들은 한 가지 치료가 위약보다 낫다는 것을 의미하지만, 그 차이는 너무 미미하여 임상 적 맥락에서 환자에게 아무런 영향을 미치지 않습니다.


1
한 사람의 큰 샘플은 다른 사람의 작은 샘플입니다. :)
Iterator

3
그때 잘못된 질문을하지 않았습니까? FDA의 승인 과정에서 통계적 의미를 요구하는 대신 위약 대비 더 큰 이득 (아마도 부작용을 포함한 약물 비용과 관련)을 명시해야합니까? 비록 실제적인 차이는 매우 작을 수 있지만, 비록 아주 작지만 그 차이는 통계적으로 유의 한 것으로 나타났습니다.
Emil Vikström 2016 년

FDA는 "정적 통계적 중요성"을 요구하지 않습니다. 그것은 터무니없는 것입니다. 업계의 모든 사람은 "임상 적으로 중요한"의 의미를 이해합니다. FDA는 건강 및 안전 문제에 대한 완화와 같은 임상 평가 변수로 측정 한 약물 의 효능 에 대한 통계적 증거를 측정합니다. 근거없는 주장을하기 전에 FDA 지침을 읽으십시오.
qwr

15

(가주 적) 가설 검정은 정확하게 관측 된 데이터의 확률에 대한 문제를 다루거나 귀무 가설이 참이라고 가정 할 때 더 극단적 인 것이 될 수 있습니다. 이 해석은 표본 크기와 무관합니다. 이 해석은 표본의 크기가 500,000 또는 1,000,000인지 여부에 따라 유효합니다.

중요한 경고는 테스트가 샘플링 오류와 만 관련이 있다는 것입니다. 측정 오류, 샘플링 문제, 범위, 데이터 입력 오류 등은 샘플링 오류 범위를 벗어납니다. 표본 크기가 증가함에 따라 작은 표본 추출이 무작위 표본 추출 모델에서 크게 벗어날 수 있으므로 비 샘플링 오류가 더 큰 영향을 미칩니다. 결과적으로 유의성 검정이 덜 유용 해집니다.

이것은 결코 유의성 검정을 나타내는 것은 아닙니다. 그러나 속성에주의해야합니다. 결과는 통계적으로 유의할 수 있습니다. 그러나 표본 크기가 클 때 귀속을 만드는 방법에주의해야합니다. 가설의 생성 과정으로 인한 차이가 샘플링 오류에 해당합니까, 아니면 테스트 통계에 영향을 줄 수있는 여러 비 샘플링 오류 (통계가 고려하지 않은)의 결과입니까?

큰 표본에 대한 또 다른 고려 사항은 결과의 실제적 중요성입니다. 중요한 테스트는 (샘플링 오류가 아닌 경우를 제외하더라도) 실제적인 의미에서 사소한 차이를 암시 할 수 있습니다. 그 결과에 샘플링 모델이 주어지지 않을지라도 문제의 맥락에서 중요한가? 표본이 충분히 크면 몇 달러의 차이로 두 그룹의 소득을 비교할 때 통계적으로 중요한 결과를 얻을 수 있습니다. 의미있는 의미에서 이것이 중요합니까? 통계적 중요성은 올바른 판단과 주제 지식을 대체 할 수 없습니다.

옆으로, 널은 참도 거짓도 아닙니다. 모델입니다. 가정입니다. 우리는 널이 참이라고 가정하고 그 가정의 관점에서 샘플을 평가합니다. 우리의 표본에 이러한 가정이 주어지지 않을 경우, 우리는 대안에 대해 더 많은 신뢰를 둡니다. 실제로 널이 참인지 아닌지에 대한 의문은 유의성 테스트 논리를 오해하는 것입니다.


3
이는 표본 크기가 커짐에 따라 모델 복잡성이 증가한다는 주장을 뒷받침합니다. 큰 표본의 경우 표본 추출 오류가 더 이상 불확실성의 주된 원인이 아닙니다. 물론 이것은 베이지안 프레임 워크에서만 "이해됩니다". 샘플링 오차 외에 다른 불확실성의 원인도 허용됩니다.
probabilityislogic

13

다른 답변에서 직접적으로 언급되지 않은 한 가지 간단한 지적은 "모든 귀무 가설이 거짓"이라는 것은 사실이 아니라는 것입니다.

실제 코인의 헤드 확률이 정확히 0.5와 동일하다는 가설은 맞습니다.

α

α


9

어떤 의미에서, 대부분의 귀무 가설은 [항상] 거짓입니다 (홀수의 집에 사는 사람들의 그룹은 짝수의 집에 사는 사람들의 그룹과 평균적으로 정확히 같은 수입을 얻지 못합니다 ).

Tαn0.5Tααn

이것은 통계 테스트의 결함이 아닙니다. 추가 정보가 없으면 (이전) 널과의 작은 불일치가 널에 대한 증거로 취해 져야한다는 사실의 결과입니다. 이러한 불일치가 아무리 사소한 것이더라도.

P^(|μ¯1μ¯2|2>η|η,X)


이상합니다 ... 직관적으로, 이것은 다수의 법칙에 위배되는 것 같습니다.
Carlos Accioly

Carlos :> 좀 더 구체적으로 설명해 주시겠습니까?
user603

n

1
@Carlos-그러나 수렴이 평등을 의미하는 것은 아닙니다. 이것은 도달 할 수없는 무한의 한계에 대해서만 보장됩니다. ;-)

5

짧은 대답은 "아니오"입니다. 무한 관측 및 다중 가설의 점근 적 체계에서 가설 검정에 대한 연구는 마이크로 어레이 데이터 및 재무 데이터 응용으로 인해 지난 15-20 년 동안 매우 활발하게 활동 해 왔습니다. 긴 답변은 2010 년 Brad Efron이 가르치는 Stat 329의 "대규모 동시 추론"과정 페이지에 있습니다. 전체 장 큰 규모의 가설 검증에 전념.


7
Efron의 책은 샘플 크기가 아닌 많은 변수 (및 발생하는 여러 테스트 문제)에 중점을두고 있다고 생각합니다.
Galit Shmueli

4

큰 데이터에 대한 가설 테스트는 차이가 있는지 여부보다는 원하는 수준의 차이를 고려해야합니다. 추정값이 정확히 0이라는 H0에 관심이 없습니다. 일반적인 접근 방식은 귀무 가설과 관측 값의 차이가 주어진 컷오프 값보다 큰지 여부를 테스트하는 것입니다.

X1¯>X2¯

T=X1¯X2¯δS2n+δS2nN(δS2n,1)
T=X1¯X2¯S2nN(δS2n,1)

H0:X1¯X2¯=δ

X1¯X2¯δS2nN(0,1)

HAX1¯X2¯>δ

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

다음을 제공합니다.

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 

첫 번째 방정식에 복사 / 과거 오타가 없습니까?
user603

보이지 않습니까?
Joris Meys

4

"가설 테스트가 대규모 데이터 세트에 가치가 없다는 것을 의미합니까?"

아니요, 그런 의미는 아닙니다. 일반적인 메시지는 가설 검정을 수행 한 후에 내려진 결정은 항상 p- 값뿐만 아니라 추정 된 효과 크기를 고려해야한다는 것입니다. 특히, 매우 큰 샘플 크기를 가진 실험에서, 효과 크기를 고려해야 할 필요성은 극적으로 증가합니다. 물론, 일반적으로 절차가 덜 "자동"되기 때문에 사용자는 이것을 좋아하지 않습니다.

이 시뮬레이션 예제를 고려하십시오. 표준 정규 분포에서 백만 개의 관측치로 구성된 임의 표본이 있다고 가정합니다.

n <- 10^6
x <- rnorm(n)

0.01

y <- rnorm(n, mean = 0.01)

95%2.5×1014

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[0.013,0.008]

이 정도의 두 모집단 평균의 차이 가 우리가 연구하고있는 특정 문제 와 관련 있습니까?


첫 번째 문장을 제외하고는 대답이 "예, 보통 의미합니다"라는 것을 제외하고는 답변의 모든 내용에 동의합니다. 왜냐하면 백만 개 정도의 큰 샘플의 경우 효과 크기가 너무 작기 때문입니다.
zbicyclist 2016 년

α

3

HST:d1=1.23,d2=1.11,di

그러나이 확실한 가설에는 관심이 없다. 가설 검정으로 실제로하고 싶은 일에 대해 생각하면, 귀무 가설을 대치하기에 더 좋은 것이 있다면 거절해야한다는 것을 곧 알게 될 것입니다. null이 데이터를 설명하지 않더라도 교체가 없으면 데이터를 버리지 않습니다. 이제 항상 널을 "확실한 것"가정으로 대체 하시겠습니까? 아마도 "확실한"가설을 사용하여 데이터 세트를 넘어 일반화 할 수 없기 때문일 수 있습니다. 데이터를 인쇄하는 것 이상의 의미가 없습니다.

따라서 실제로해야 할 행동에 관심이 있다는 가설을 지정해야합니다. 그런 다음 이러한 대안을 서로 비교하기위한 적절한 테스트를 수행하십시오. 허위이거나 사용할 수없는 것으로 판단되는 관련이없는 가설은 아닙니다.

H0:μ=0H1:μ{±1,±2,±3,±4,±5,±6}0.5100

결론은 기본적으로 가설 공간 (실제로 관심이있는 가설)을 지정해야한다는 것입니다. 빅 데이터의 경우 데이터가 너무 많은 분해능을 가지기 때문에이 작업이 매우 중요한 것으로 보입니다. 또한 잘 작동하는 결과를 얻으려면 가설 (포인트와 포인트, 컴파운드와 컴파운드)을 비교하는 것이 중요해 보입니다.


3

아닙니다. 모든 유용한 포인트 가설 검정은 일관되므로 표본 크기 만 충분히 크고 관련이없는 효과가있는 경우 중요한 결과를 보여줍니다. 통계적 가설 테스트 (위의 Gaetan Lion의 답변에서 이미 언급 한)의 단점을 극복하기 위해 관련성 테스트가 있습니다. 이것들은 동등성 테스트와 비슷하지만 덜 일반적입니다. 관련성 테스트의 경우 관련 최소 효과의 크기가 미리 지정됩니다. 관련성 검정은 효과에 대한 신뢰 구간을 기반으로 할 수 있습니다. 신뢰 구간과 관련성 영역이 분리되어 있으면 널을 거부 할 수 있습니다.

그러나 van der Laan과 Rose는 그들의 진술에서 실제 귀무 가설조차도 연구에서 테스트되었다고 가정합니다. 귀무 가설이 참인 경우, 특히 거시 표본의 경우 기각 가능성은 알파보다 크지 않으며 잘못 지정 되어도 표본 분포가 모집단 분포와 체계적으로 다르다는 것을 알 수 있습니다.


3

귀하가 언급 한 기사에는 표준 상용주의 테스트에 관한 한 유효한 요점이 있습니다. 주어진 효과 크기에 대한 테스트가 매우 중요한 이유입니다. 예를 들어, 다음은 그룹 B가 그룹 A 및 C와 약간 다른 3 개의 그룹 사이의 anova입니다. r에서 이것을 시도하십시오.

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

예상 한대로 테스트 당 샘플 수가 많을수록 테스트의 통계적 유의성이 증가합니다. 여기에 이미지 설명을 입력하십시오


2

그들이 의미하는 바는 종종 '단순한'형태를 갖지만 실제 확률 밀도와 일치하지 않는 귀무 가설의 확률 밀도에 대해 가정한다는 것입니다.

이제 작은 데이터 세트의 경우이 효과를보기에 충분한 감도가 없을 수도 있지만 충분히 큰 데이터 세트의 경우 귀무 가설을 기각하고 귀무 가설에 대한 가정이 잘못되었다는 결론을 내리는 대신 새로운 효과가 있다고 결론을 내릴 수 있습니다.


1
나는 Mark와 Shern이 당신의 견해를 염두에 두 었는지 모르지만 단지 당신의 요점을 다시 말하려고합니다. 만약 널 아래에있는 데이터에 대한 모델이 '잘못된'이라면 충분히 큰 데이터에 대해 귀무 가설을 기각 할 것입니다.

1

α

H0H1

표본 크기에 따라 검정력이 증가합니다 (다른 모든 것은 동일 함).

그러나 "우리는 충분히 큰 표본 크기에 대해 효과가 없다는 귀무 가설을 포함한 모든 연구가 통계적으로 유의 한 효과를 선언 할 것임을 알고 있습니다." 부정확하다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.