첫 번째 실험의 95 % 신뢰 구간 내에서 반복 실험의 효과 크기는 어느 정도입니까?


12

랜덤 샘플링, 가우시안 모집단, 등분 산, P- 해킹 없음 등으로 이상적인 상황을 고수합시다.

1 단계. 두 표본 평균을 비교하는 실험을 실행하고 두 모집단 평균의 차이에 대한 95 % 신뢰 구간을 계산합니다.

2 단계. 더 많은 실험 (수천)을 실행합니다. 평균 간의 차이는 무작위 샘플링으로 인해 실험마다 다릅니다.

질문 : 2 단계에서 실험 모음과 평균 간의 차이의 일부가 1 단계의 신뢰 구간 내에 있습니까?

대답 할 수 없습니다. 그것은 모두 1 단계에서 일어난 일에 달려 있습니다. 1 단계 실험이 매우 비정형 적이라면, 그 질문에 대한 대답은 매우 낮을 수 있습니다.

따라서 두 단계가 여러 번 반복된다고 가정하십시오 (2 단계가 여러 번 반복됨). 이제 반복 실험의 일부가 평균적으로 첫 번째 실험의 95 % 신뢰 구간 내에서 효과 크기를 가질 것으로 기대할 수 있어야한다고 생각합니다.

이 질문들에 대한 답은 현재 매우 뜨거운 분야 인 연구의 재현성을 평가하기 위해 이해되어야 할 것 같습니다.


각 원래 (단계 1) 실험 에 대해 x i 를 원래 결과의 신뢰 구간 내에서 결과를 생성하는 후속 (단계 2) 결과의 비율로 정의 하십시오. x 의 경험적 분포를 계산하고 싶 습니까? ixix
Matthew Gunn

예, 당신은 내가 요구하고 이해
하비 Motulsky

@MatthewGunn은 향후 관측을 위해 "포획 분획"의 실험적 분포를 원하는지 물었습니다. 귀하의 게시물에 "... 반복 실험의 일부가 평균적으로 첫 번째 실험의 95 % 신뢰 구간 내에서 효과 크기를 가질 것으로 기대할 수 있어야한다고 생각했습니다 . " 이것은 분포가 아니라 예상 값 (평균)입니다.

Whuber의 분석은 훌륭하지만 인용이 필요한 경우 다음 질문에 대해 자세히 자세히 설명하는 논문이 있습니다. Cumming & Maillardet, 2006, Confidence Intervals and Replication : 다음은 어디에서 떨어질까요? . 이를 신뢰 구간의 백분율캡처 합니다.
amoeba는 Reinstate Monica가

답변:


12

분석

이것은 개념적인 질문이므로 간단히하기 위해 신뢰 구간 [ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / 의 상황을 고려해 봅시다.1α은크기n의 랜덤 샘플x(1)를사용하여평균μ에대해 구성되고, 제 2 랜덤 샘플x(2)는모두 동일한 법선(μ,σ2)분포로부터크기m의 크기로 취해진 다. (원하는 경우n-1자유도의학생t분포값으로Zs를대체 할 수있습니다. 다음 분석은 변경되지 않습니다.)

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1)nx(2)m(μ,σ2)Ztn1

두 번째 표본의 평균이 첫 번째 표본에 의해 결정된 CI 내에있을 확률은

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

첫 번째 표본 평균 은 첫 번째 표본 표준 편차 (정규 필요)와 독립적이므로 두 번째 표본은 첫 번째 표본과 독립적이므로 표본의 차이는 의미합니다. 은 과 독립적입니다 . 또한이 대칭 구간에 대해 입니다. 따라서 랜덤 변수 대해 를 작성 하고 두 부등식을 제곱하면 문제의 확률은 다음과 같습니다.x¯(1)s(1)U=x¯(2)x¯(1)s(1)Zα/2=Z1α/2Ss(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

기대 법칙은 의 평균이 이고 분산이U0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

는 정규 변수의 선형 조합 이므로 정규 분포도 있습니다. 따라서 는 곱하기 변수입니다. 우리는 이미 가 곱하기 변수 라는 것을 알고있었습니다 . 결과적으로 는 분포 의 변수에 곱하기 입니다. 필요한 확률은 F 분포에 의해UU2σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)

(1)F1,n1(Z1α/221+n/m).

토론

흥미로운 것은 두 번째 표본이 첫 번째 표본과 동일한 크기이므로 이고 과 만이 확률을 결정합니다. 에 대해 에 대해 플롯 된 값은 다음과 같습니다 .n/m=1nα(1)αn=2,5,20,50

그림

증가함에 따라 그래프는 각각의 에서 한계 값 으로 상승합니다. 일반적인 테스트 크기 는 세로 회색 선으로 표시됩니다. 지연 값 경우 의 제한 확률 은 약 입니다.αnα=0.05n=mα=0.0585%

이 한계를 이해함으로써 우리는 작은 표본 크기의 세부 사항을 살펴보고 문제의 요점을 더 잘 이해할 것입니다. 마찬가지로 커질 상기 분포는 접근 분포. 표준 정규 분포 와 관련하여 확률 은 근사치입니다.n=mFχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

예를 들어, 경우 및 입니다. 결과적으로 곡선에 의해 달성 제한값 로서 증가가있을 것이다 . 에 거의 도달했음을 알 수 있습니다 (여기서 입니다).α=0.05Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

작은 경우 와 보완 확률 (CI가 두 번째 평균을 포함 하지 않을 위험) 사이의 관계 는 거의 완벽하게 거듭 제곱 법칙입니다. αα 이것을 표현하는 또 다른 방법은 로그 보완 확률이 거의 의 선형 함수라는 것입니다 . 제한 관계는 대략logα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

다시 말하면, 큰 및 의 전통적인 값인 근처의 경우 은n=mα0.05(1)

10.166(20α)0.557.

(이것은 내가 /stats//a/18259/919에 게시 한 겹치는 신뢰 구간에 대한 분석을 매우 많이 상기시켜줍니다 . 실제로, 의 마법의 힘은 마법의 힘의 거의 역수입니다. 여기에, .이 시점에서 실험의 재현성 측면에서 그 분석을 다시 해석 할 수 있어야합니다.)1.910.557


실험 결과

이 결과는 간단한 시뮬레이션으로 확인됩니다. 다음 R코드는 적용 빈도, 으로 계산 된 기회 및 Z- 점수가 얼마나 다른지를 평가합니다. Z- 점수는 일반적으로 (또는 또는 CI의 계산 여부)에 관계없이 크기 가 보다 작으며 공식 의 정확성을 나타냅니다 .2 n , m , μ , σ , α Z t ( 1 )(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

z 대신 t를 사용하면 큰 차이가 없다고 말합니다. 나는 당신을 믿지만 아직 확인하지 않았습니다. 표본 크기가 작 으면 두 가지 중요한 값이 크게 다를 수 있으며 t 분포는 CI를 계산하는 올바른 방법입니다. 왜 z를 선호합니까?
Harvey Motulsky

순전히 설명적이고 가 더 간단합니다. 를 사용 하면 그림의 곡선이 높이 시작하여 한계까지 내려간 것이 흥미 롭습니다. 특히, 중요한 결과를 재현 할 가능성은 큰 샘플보다 작은 샘플에서 훨씬 높습니다! 를 적절한 Student t 분포 (또는 이름을 지정할 수도있는 다른 분포)의 백분율 포인트로 자유롭게 해석 할 수 있으므로 확인할 것이 없습니다 . 분석에는 변화가 없습니다. 특정 효과를 보려면 코드에서 해당 줄의 주석을 해제하십시오 . t Z αZtZαqt
whuber

1
+1. 이것은 훌륭한 분석입니다 (그리고 당신의 대답에는 그것이 무엇인지에 대한 의견이 너무 적습니다). 방금이 질문에 대해 자세히 설명하는 논문을 보았을 때 관심이있을 것이라고 생각했습니다. Cumming & Maillardet, 2006, Confidence Intervals and Replication : Next는 어디에서 떨어질 까요? . 이를 신뢰 구간의 백분율캡처 합니다.
amoeba는 Reinstate Monica가

@Amoeba 참조 해 주셔서 감사합니다. "복제는 과학적 방법의 중심이며 연구자들이 단일 연구의 본질적인 불확실성을 강조하기 때문에 눈을 멀게하지 않아야한다"고 특히 이해하고있다.
whuber

1
업데이트 : 자매 스레드에서 진행중인 토론 덕분에 위의 의견에 대한 나의 추론이 정확 하지 않다고 생각 합니다. 95 % CI는 83 % "복제 캡처"를 갖지만, 이는 반복 샘플링에 대한 진술이며 적어도 추가 가정 없이는 하나의 특정 신뢰 구간에 조건을 둔 확률을 제공하는 것으로 해석 될 수 없습니다. (아마도 다른 독자들을 혼동하지 않으려면이 의견과 이전 의견을 모두 삭제해야합니다.)
amoeba는 Reinstate Monica가

4

[WHuber가 지적한 버그를 수정하도록 편집되었습니다.]

@Whuber의 R 코드를 변경하여 t 분포를 사용하고 적용 범위를 표본 크기의 함수로 표시합니다. 결과는 다음과 같습니다. 높은 표본 크기에서 결과는 물론 WHuber와 일치합니다.

여기에 이미지 설명을 입력하십시오

그리고 여기에 적합한 R 코드가 있습니다. 알파를 0.01 또는 0.05로 설정하여 두 번 실행하십시오.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

그리고 여기 그래프를 만든 GraphPad Prism 파일이 있습니다.


버그로 인해 플롯이 t 분포를 사용 하지 않는다고 생각합니다 . 루프 외부의 값을 설정했습니다 ! 올바른 곡선을보고 싶다면 시뮬레이션 된 결과에 의존하지 않고 코드 의 끝에 주어진대로 내 대답에 이론적 결과를 사용하여 직접 곡선을 TRcurve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
그리면됩니다

1
@whuber. 이케 스! 물론 그렇습니다. 부끄러운. 나는 그것을 고쳤다. 지적했듯이 작은 샘플 크기로 적용 범위가 더 높습니다. (필자는 시뮬레이션을 고정하고 이론적 기능을 시도하지 않았다.)
하비 Motulsky

작은 표본 크기에 대한 적용 범위가 얼마나 높은 지 흥미 롭기 때문에 고쳤습니다. 또한 귀하의 질문을 반전시키고 공식을 사용하여 확률이 ( 실험을 수행하기 전에) (예) 와 같은 을 사용 하여 두 번째 실험은 두 번째 실험 에서 결정된 양측 신뢰 구간 내에 있습니다. 그렇게하는 것은 일상적인 관행으로서 NHST에 대한 비판을 다루는 흥미로운 방법이 될 수 있습니다. p = 0.95 1 αZα/2p=0.951α
whuber

@ whuber 다음 단계는 적용 범위의 분포를 보는 것입니다. 지금까지 우리는 평균 범위를 가졌습니다 (각각의 첫 번째 실험의 평균과 평균 두 번째 실험의 평균). 그러나 첫 번째 실험의 결과에 따라 일부 경우 평균 범위가 열악합니다. 분포를 보는 것이 흥미로울 것입니다. 나는 R을 충분히 배우려고 노력하고 있습니다.
Harvey Motulsky 2016 년

배포판에 대해서는 위 주석에서 링크 된 논문을 참조하십시오.
amoeba는 Reinstate Monica가
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.