Cumming (2008)은 복제에서 얻은 p- 값의 분포는 원래의 p- 값에만 의존한다고 주장합니다. 그것은 어떻게 사실 일 수 있습니까?

52

필자는 Geoff Cumming의 2008 년 논문 복제 및 간격을 $p$ $p$ 읽었습니다 . 값은 미래를 모호하게 예측하지만 신뢰 간격은 훨씬 더 우수합니다 [Google Scholar에서 ~ 200 개의 인용] . 이것은 Cumming이 에 대해 논쟁 하고 신뢰 구간을 선호 하는 일련의 논문 중 하나입니다 . 그러나 내 질문 은이 논쟁에 관한 것이 아니며 대한 하나의 특정 주장에만 관련 됩니다. $p$ $p$

초록에서 인용하겠습니다.

이 기사에서는 초기 실험 결과 양측 가 발생하면 복제의 단측 값이 구간 에 해당 하는 확률이 을 보여줍니다. 확률이 , 그리고 완전히 확률이 . 놀랍게도, 간격 이라고하는 간격은이 넓지 만 샘플 크기는 큽니다. $p= .05$ $80\%$ $p$ $(.00008, .44)$ $10\%$ $p < .00008$ $10\%$ $p > .44$ $p$

Cumming은이 " 간격"과 실제로 동일한 고정 표본 크기로 원래 실험을 복제 할 때 얻을 수있는 의 전체 분포 는 원래 값 에만 의존 실제 효과 크기, 검정력, 샘플 크기 또는 다른 것에 의존하지 않습니다. $p$ $p$ $p$ $p_\mathrm{obt}$

[...] 의 확률 분포는 (또는 power)에 대한 값을 모르거나 가정하지 않고 도출 될 수 있습니다 . [...] 우리는 에 대한 사전 지식을 가지고 있지 않으며 , [그룹 간 차이]는 주어진 에 대한 계산의 기초로 에 관한 정보 만 사용합니다. 와 구간 의 분포에 대한 . $p$ $\delta$ $\delta$ $M_\mathrm{diff}$ $\delta$ $p_\mathrm{obt}$ $p$ $p$

$\quad\quad\quad$

의 분포는 힘에 크게 의존 하는 것처럼 보이지만 원래 자체는 그것에 대한 정보를 제공하지 않기 때문에 습니다. 실제 효과 크기는 이고 분포가 균일 할 수 있습니다. 또는 실제 효과 크기가 크면 대부분 매우 작은 기대해야합니다 . 물론 하나 이상의 가능한 효과 크기를 가정하고 그 위에 통합한다고 가정 할 수는 있지만 Cumming은 이것이 자신이하는 것이 아니라고 주장하는 것 같습니다. $p$ $p_\mathrm{obt}$ $\delta=0$ $p$

질문 : 정확히 무슨 일이 일어나고 있습니까?

이 주제는이 질문과 관련 이 있습니다. 첫 번째 실험의 95 % 신뢰 구간 내에서 반복 실험의 효과 크기는 어느 정도입니까? @ whuber의 훌륭한 답변. Cumming은이 주제에 관한 논문을 가지고 있습니다 : Cumming & Maillardet, 2006, Confidence Intervals and Replication : 다음은 어디로 떨어질까요? 하지만 그 중 하나는 명확하고 문제가 없습니다.

또한 Cumming의 주장은 2015 Nature Methods 논문에서 여러 번 반복된다는 점에 주목하십시오 . 변덕스러운 값 $P$ 은 일부 사람들이 겪었을 수 있는 재현 할 수없는 결과 를 생성합니다 (Google Scholar에서 이미 100 건의 인용 횟수가 있음).

[...] 반복 실험 의 값에 상당한 변화가있을 것 입니다. 실제로 실험은 거의 반복되지 않습니다. 우리는 다음 가 얼마나 다른지 모릅니다. 그러나 매우 다를 수 있습니다. 예를 들어 실험의 통계적 검정력에 관계없이 단일 반복 실험에서 값이 반환하면 반복 실험이 에서 사이 의 값을 반환 할 확률 은 입니다 (그리고 변화). [sic] 는 더 클 것이다). $P$ $P$ $P$ $0.05$ $80\%$ $P$ $0$ $0.44$ $20\%$ $P$

(그러나 Cumming의 진술이 정확한지 여부에 관계없이 Nature Methods 논문은 어떻게 부정확하게 인용하는지 : Cumming에 따르면 이상의 확률은 불과 합니다. 그렇습니다. g e ". Pfff.) $10\%$ $0.44$

— 아메바의 말에 따르면 복원 모니카
소스

8

이와 같은 주장은 가정 된 자연 상태에 대해 조건부로 적용되지 않아야하며 기본적으로 귀무 가설이 아닐까요? 들면 간단한 귀무 가설과 연속적 분산 통계, P 값은 균일 한 분포를 갖는다. 모든 것은 그 사실에서 흘러 나옵니다.

— whuber

4

@whuber 글쎄, 여기서 재현 한 그림 5의 분포는 명확하지 않습니다. 나는 그러한 분포가 자연의 상태에 조건 적이어야한다고 생각하지만 Cumming은 그 반대라고 주장하는 것 같습니다. 따라서 내 질문 :이 논문에서 실제로 무슨 일이 일어나고 있습니까? 주장을 오해하고 있습니까? 용지가 잘못 되었습니까? 숨겨진 가정을 알아낼 수 있습니까? 기타

— amoeba는 Reinstate Monica가

나 자신을위한 참고 사항 :이 arxiv.org/abs/1609.01664 는 분명히 관련이 있지만 한 눈에 내 퍼즐을 해결하지 못했습니다.

— 아메바는

1

이번 주에 결승전을하지 않았 으면 좋겠다. 두 표본 크기가 동일하다면 후속 p- 값은 검정력에 의존해야한다는 것은 의미가 없습니다. 관측 된 p- 값은 매개 변수의 실제 값과 선택한 null에만 의존해야합니다. 추정의 유용성은 힘에 달려 있지만 여기서는 의문의 여지가 없습니다.

— Dave Harris

3

나는 여기서 내 리그를 벗어났습니다 ...하지만 종이를 감추고, 모든 것이 동일한 분산 및 샘플 크기를 가진 두 가우시안 모집단의 평균 차이가 0 인 null을 의미하는 테스트의 맥락에있는 것처럼 보입니다. . 이 올바른지? (예 : 여기서 입니다.) 또는 용지 범위가 더 넓은 경우 여기에 질문 / 의견이있는 것 같습니까?

z = \frac{Δ \bar{x}}{σ} \sqrt{\frac{N}{2}} \sim N_{⟨ z ⟩, 1}

$z=\frac{\Delta\bar{x}}{\sigma}\sqrt{\frac{N}{2}}\sim\mathrm{N}_{\langle{z}\rangle,1}$

⟨ z ⟩ = \frac{Δ μ}{σ} \sqrt{\frac{N}{2}} = 0

$\langle{z}\rangle=\frac{\Delta\mu}{\sigma}\sqrt{\frac{N}{2}}=0$

— GeoMatt22

21

요약 : 트릭 은 숨겨진 매개 변수 (종료 부록 B의 , 여기)에 대해 균일 ( Jeffreys ) 을 가정하는 베이지안 접근 방식 인 것으로 보입니다 . $z_\mu$ $\theta$

나는 논문의 부록 B에 주어진 방정식을 얻기 위해 베이지안 스타일의 접근법이있을 수 있다고 생각합니다.

내가 알기로 실험은 통계 요약됩니다 . 샘플링 분포 의 평균 는 알려져 있지 않지만 귀무 가설 사라집니다 . $z\sim\mathrm{N}_{\theta,1}$ $\theta$ $\theta\mid{}H_0=0$

실험적으로 관찰 된 통계량 호출하십시오 . 그런 다음 이전에 "균일 한"( 부적절한 ) 것으로 가정 하면 베이지안 후부는 입니다. 그런 다음 를 소외하여 원래 샘플링 분포를 업데이트하면 그 후부는 됩니다. (이중 분산은 가우시안의 컨볼 루션 때문입니다.) $\hat{z}\mid\theta\sim\mathrm{N}_{\theta,1}$ $\theta\sim1$ $\theta\mid\hat{z}\sim\mathrm{N}_{\hat{z},1}$ $\theta\mid\hat{z}$ $z\mid\hat{z}\sim\mathrm{N}_{\hat{z},2}$

수학적으로 적어도 이것은 작동하는 것 같습니다. 그리고 요소가 "매직 적으로"방정식 B2에서 방정식 B3으로 어떻게 나타나는지 설명합니다 . $\frac{1}{\sqrt{2}}$

토론

이 결과를 표준 귀무 가설 검정 프레임 워크와 어떻게 조화시킬 수 있습니까? 한 가지 가능한 해석은 다음과 같습니다.

표준 프레임 워크에서, 귀무 가설은 어떤 의미에서는 "기본"입니다 (예 : 우리는 "무 귀한 거부"라고 말합니다). 위의 베이지안 문맥에서 이것은 을 선호 하는 비 균일 이전의 것입니다 . 이것을 로한다면, 분산 는 이전의 불확실성을 나타냅니다. $\theta=0$ $\theta\sim\mathrm{N}_{0,\lambda^2}$ $\lambda^2$

위의 분석을 통해이를 수행하면 으로부터 우리는 위의 분석을 복구 할 수 있습니다. 그러나 한계 "posteriors"는 null, 및 이므로 표준 결과 복구합니다 .

θ \sim N_{0, λ^{2}} ⟹ θ ∣ \hat{z} \sim N_{δ^{2} \hat{z}, δ^{2}}, z ∣ \hat{z} \sim N_{δ^{2} \hat{z}, 1 + δ^{2}}, δ^{2} \equiv \frac{1}{1 + λ^{- 2}} \in [0, 1]

$\theta\sim\mathrm{N}_{0,\lambda^2} \implies \theta\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},\delta^2} \,,\, z\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},1+\delta^2} \,,\, \delta^2\equiv\tfrac{1}{1+\lambda^{-2}}\in[0,1]$

λ \to \infty

$\lambda\to\infty$

λ \to 0

$\lambda\to{0}$

θ ∣ \hat{z} \sim N_{0, 0}

$\theta\mid\hat{z}\sim\mathrm{N}_{0,0}$

z ∣ \hat{z} \sim N_{0, 1}

$z\mid\hat{z}\sim\mathrm{N}_{0,1}$

p ∣ \hat{z} \sim U_{0, 1}

${p}\mid{\hat{z}}\sim\mathrm{U}_{0,1}$

(반복 된 연구의 경우, 위의 내용은 베이지안 업데이트와 메타 분석에 대한 "전통적인" 방법 의 의미에 대한 흥미로운 질문을 제시합니다 . 메타 분석의 주제에 대해서는 완전히 무지합니다!)

부록

의견에서 요청한대로 여기에 비교를위한 도표가 있습니다. 이것은 논문에서 공식을 비교적 간단하게 적용한 것입니다. 그러나 나는 모호성을 보장하기 위해 이것을 쓸 것이다.

하자 통계 용 한면 P 값을 나타내고 , 그리고하여 (후방) CDF를 나타낸다 . 부록의 방정식 B3은 여기서 는 표준 일반 CDF입니다. 해당 밀도는 여기서 는 표준 일반 PDF이고 는 CDF 공식. 마지막으로 하면 $p$ $z$ $F[u]\equiv\Pr\big[\,p\leq{u}\mid{\hat{z}}\,\big]$

F [p] = 1 - Φ [\frac{1}{\sqrt{2}} (z [p] - \hat{z})], z [p] = Φ^{- 1} [1 - p]

$F[p]=1-\Phi\left[\tfrac{1}{\sqrt{2}}\left(z[p]-\hat{z}\right)\right] \,,\, z[p]=\Phi^{-1}[1-p]$

Φ []

$\Phi[\,\,]$

f [p] \equiv F^{'} [p] = \frac{ϕ [(z - \hat{z}) / \sqrt{2}]}{\sqrt{2} ϕ [z]}

$f\big[p\big]\equiv{F^\prime}\big[p\big]=\frac{\phi\Big[(z-\hat{z})/\sqrt{2}\,\Big]}{\sqrt{2}\,\phi\big[z\big]}$

ϕ []

$\phi[\,\,]$

z = z [p]

$z=z[p]$

\hat{p}

$\hat{p}$ 해당하는 양측 p 값 이면

\hat{z}

$\hat{z}$

\hat{z} = Φ^{- 1} [1 - \frac{\hat{p}}{2}]

$\hat{z}=\Phi^{-1}\Big[1-\tfrac{\hat{p}}{2}\Big]$

이 방정식을 사용하면 아래 그림 을 볼 수 있는데, 이는 질문에 인용 된 논문의 그림 5와 비교할 수 있어야 합니다.

(이것은 다음 Matlab 코드에 의해 생성되었습니다 . 여기서 실행 하십시오 .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

— 지오 맷 22
소스

1

내 희망은 기본 가정 (예 : 숨겨진 매개 변수에 대한 균일 한 사전)을 노출함으로써 토론이 이제 내가 당신의 목표라고 생각 하는 과학적 / 통계적 질문 에 집중할 수 있기 를 바랍니다! (오히려보다 수학 / 확률 질문 나는 위의 대답했다.)

— GeoMatt22

나는 Goodman 1992 , Senn 2002의 Goodman에 대한 의견 , 최근 Lazzeroni et al 2014 와 같은 주제에 대한 오래되고 오래되지 않은 토론을 발견했습니다 . 마지막은 다소 도움이되지 않지만 (완전성을 위해 언급하지만) 처음 두 가지, 특히 Senn의 의견은 매우 관련이 있습니다.

— amoeba 말한다 Reinstate Monica

amoeba는이 참조를 파고 주셔서 감사합니다, 그들은 재미있어 보인다! 완성도를 높이기 위해 Cumming 결과와 표준 프레임 워크를 연결하는 "토론"섹션을 추가했습니다.

— GeoMatt22

업데이트 : 나는 위에 링크 된 Goodman과 Senn의 논문을 읽었으며 현재 내 직관을 요약하기 위해 내 자신의 답변을 게시했습니다. (그런데, 나는 당신의 대답을 받아 들여서 현상금을 수여했습니다. 다시 감사합니다.)

— amoeba는 Reinstate Monica가

27

모든 흥미로운 토론에 감사드립니다! 2008 년 기사를 쓸 때 복제 p 의 분포 ( 연구의 정확한 복제에 의해 주어진 p 값, 정확히 동일하지만 새로운 샘플을 가진 연구를 의미하는 p 값)가 의존적이라는 것을 스스로 확신시키는 데 시간이 걸렸습니다. 원래 연구에 의해 주어진 p에 대해서만 . (논문에서 나는 정규 분포 모집단과 무작위 표본 추출을 가정하고, 우리의 연구는 모집단의 평균을 추정하는 것을 목표로합니다.) 따라서 p 구간 (복제 p 의 80 % 예측 구간 )은 N , 원래 연구의 힘 또는 실제 효과 크기.

물론, 처음에는 믿기지 않습니다. 그러나 나의 원래 진술은 원래 연구의 p 를 아는 것에 근거하고 있다는 점에 유의하십시오 . 이런 식으로 생각하십시오. 원래 연구에서 p = .05를 발견했다고 가정 해 봅시다 . 그 연구에 대해 아무 것도 말해주지 마십시오. 표본 평균의 95 % CI가 정확히 0으로 확장된다는 것을 알고 있습니다 ( p 가 귀무 가설 0으로 계산 되었다고 가정 ). 따라서 표본 평균은 0에서 해당 거리이므로 MoE (95 % CI의 한 팔 길이)입니다. 귀하와 같은 연구에서 평균의 표본 분포는 표준 편차 MoE / 1.96을 갖습니다. 이것이 표준 오류입니다.

정확한 복제에 의해 주어진 평균을 고려하십시오. 해당 복제 평균의 분포는 평균 MoE를 의미합니다. 즉, 분포는 원래 표본 평균을 중심으로합니다. 표본 평균과 복제 평균의 차이를 고려하십시오. 원래 연구와 같은 연구 평균의 분산과 복제의 합과 동일한 분산이 있습니다. 그것은 원래의 연구, 즉 2 x SE ^ 2와 같은 연구의 분산의 두 배입니다. 2 x (MoE / 1.96) ^ 2입니다. 그 차이의 SD는 SQRT (2) x MoE / 1.96입니다.

따라서 우리는 복제 평균의 분포를 알고 있습니다. 평균은 MoE이고 SD는 SQRT (2) x MoE / 1.96입니다. 물론, 수평 척도는 임의적이지만, 원래 연구에서 얻은 CI와 관련하여이 분포 만 알면됩니다. 복제가 실행되면 대부분의 평균 (약 83 %)이 해당 원래 95 % CI에 속하고 약 8 %는 그보다 낮습니다 (예 : 원래 평균이> 0 인 경우 0 미만). CI. 복제 CI가 원래 CI와 관련하여 어디에 있는지 알면 p 값을 계산할 수 있습니다 . 우리는 그래서 우리는 복제의 분포를 알아낼 수 (당신의 CI 관련) 등의 복제 수단의 분포를 알고있는 페이지를값. 복제에 대해 우리가 만드는 유일한 가정은 그것이 정확합니다. 즉, 원래 연구와 동일한 효과 크기를 가진 동일한 모집단에서 왔으며 N (및 실험 설계)이 연구에서와 동일하다는 것입니다. .

위의 모든 내용은 그림이없는 기사의 주장을 복원 한 것입니다.

여전히 비공식적으로, 원래 연구에서 p = .05가 무엇을 의미 하는지 생각하는 것이 도움이 될 수 있습니다 . 효과 크기가 작은 대규모 연구 또는 효과 크기가 큰 소규모 연구를 의미 할 수 있습니다. 어느 쪽이든, 그 연구를 반복하면 (동일한 N , 동일한 모집단) 의심 할 여지없이 표본 평균이 약간 다릅니다. p 값의 관점에서 볼 때 , 당신이 거대한 연구를 했든 작은 연구를하든 '약간 다르다'는 똑같습니다. 따라서 p 값만 알려 주면 p 간격을 알려 드리겠습니다 .

제프

— 제프 커밍
소스

8

이 질문에 답하기 위해이 웹 사이트에 등록 해 주셔서 감사합니다! 대단히 감사합니다. 나는 아직도 확신하지 못하지만 당신의 대답에 대해 숙고하는 데 약간의 시간이 걸릴 것입니다. 나의 현재 느낌은 당신이 타당한 점을 밝힌다는 것입니다. 간단한 이의 제기 : p = 0.05는 H0가 참인 것과 일치합니다. HO가 참이면, p는 시간의 1 %의 0.04-0.05 범위에있을 것이다. 이 경우 복제 p- 값의 분포는 0에서 1로 균일합니다. 그러나 모든 상황에서 초기 p = 0.05 에 대해 다른 분포를 예측합니다 . 어떻게 생각해야합니까?

— amoeba 말한다 Reinstate Monica

7

이 주장에서 암시적인 가정은 견딜 수없는 것처럼 보인다. "정확한 복제"의 평균은 MoE와 같다. "정확한 복제"가 동일한 자연 상태로 실험 을 반복하는 것을 의미 하는 경우 테스트 통계의 분포를 알 수 없습니다. 자연 상태에 따라 다릅니다. 베이지안 관점을 채택하는 것 외에 (이전에 사전에 명시 적으로 진술해야 함을 의미 함) 진행을 수행하는 유일한 방법 은 복제 에 대한 조건이 아니라 원본 또는 복제가 수행되기 전에 확률을 계산 하는 것입니다.

— whuber

2

@ user43849 모든면에서, 그러한 사람이 p- 값이 무엇인지 이해하지 못한다고 제안합니다. p- 값은 향후 실험 에 대해 거의 또는 전혀 언급하지 않습니다 . 여기에 직접 적용되는 잦은 예측 간격 개념이 있습니다. 복제 문제는 단순히 단일 미래 실험의 p- 값에 대한 예측 간격과 관련이 있습니다. 답은 고전적인 통계 이론에 잘 기초하고 있으며 혁신적인 개념이 필요하지 않으며 베이지안이 아닌 (확실히) 비논리적입니다.

— whuber

2

@ whuber가 신문에 파고 들었을 때, 운동의 기초가되는 암시 적 베이지안 가정이있을 수 있다고 생각합니다 (내 대답 참조).

— GeoMatt22

1

@GeoMatt 예, 계산을 정당화하는 유일한 방법 인 것 같습니다.

— whuber

10

이 문제는 @ GeoMatt22에 의해 명확 해졌으며, 토론에 참여하기 위해 @GeoffCumming이오고 있다는 것을 기쁘게 생각합니다. 이 답변을 추가 의견으로 게시하고 있습니다.

결과적으로이 논의는 최소한 Goodman (1992) 으로 돌아 간다 . 복제, P- 값 및 증거에 대한 의견 과 나중에 답장하는 Senn (2002) 은 편집자에게 보낸 편지 . 이 두 가지 간단한 기사, 특히 Stephen Senn의 기사를 읽는 것이 좋습니다. 나는 Senn에 전적으로 동의합니다.

이 질문을하기 전에이 논문들을 읽었다면, 나는 그것을 게시하지 않았을 것입니다. Goodman (Cumming과 달리)은 자신이 플랫하게 사전을 설정 한 베이지안 설정을 고려하고 있음을 분명히 밝힙니다. 그는 Cumming처럼 값 분포를 제시하지 않고 대신 복제 실험에서 "중요한" 결과 를 관찰 할 확률을보고 합니다. $p$ $p<0.05$

그의 주요 요점은 이러한 확률이 놀랍게도 낮다는 것입니다 ( 경우 에도 에 불과합니다 ). 특히 경우 입니다. (이 후자의 확률은 모든 및 대해 동일하게 유지 됩니다.) $p=0.001$ $0.78$ $p=0.05$ $0.5$ $1/2$ $\alpha$ $p=\alpha$

SENN의 답변의 요점은이, 그러나 않는 유용한 관찰 있다는 것이다 되지 훼손 어떤 식 으로든 -values 및 수행 하지 , 반대를 굿맨, 그 의미 "널에 대한 증거를 과장"-values. 그는 씁니다. $p$ $p$

또한 그의 [Goodman 's] 시연은 두 가지 이유로 유용하다고 생각합니다. 첫째, 이것은 두 번째 연구에서는 이것이 일치하지 않을 수 있음을 방금 완료 한 연구와 비슷한 연구를 계획하는 사람에게 경고 역할을합니다. 둘째, 개별 연구의 결과에서 명백한 불일치가 일반적 일 것으로 예상 될 수 있으며이 현상에 과도하게 반응해서는 안된다는 경고의 역할을한다 .

SENN 일방적 있음을 일깨워 -values가의 베이지안 사후 확률로 이해 될 수 위한 평면 종래 아래 (전체 실제 선에 부적절한 사전) [참조 Marsman의 & Wagenmakers 2016 간략한 논의 이 사실과 일부 인용의] . $p$ $H_0:\mu<0$ $\mu$

다음, 수득 한 특정 그렇다면 하나의 실험 - 값을 확률은 다음 실험 수율 것이다 저급 -value가 보유 되도록 ; 그렇지 않으면 향후 복제는 수행되기 전에 추가 증거를 제공 할 수 있습니다. 따라서 Goodman은 확률 얻었습니다 . 실제로 Cumming 및 @ GeoMatt22에 의해 계산 된 모든 복제 분포는 각각의 에서 중간 값을 갖습니다 . $p$ $p$ $1/2$ $p=0.05$ $0.5$ $p_\mathrm{obs}$

그러나, 치료의 효능이 가능하다고 믿기 위해이 복제 확률이 보다 높을 필요는 없다 . %가 % 수준 에서 중요했던 긴 일련의 시험 은 치료가 효과적이라는 증거를 설득 할 수 있습니다. $0.5$ $50$ $5$

또한, 주어진 크기와 거듭 제곱의 t- 검정 ( 예 : 여기 참조 )에 대한 의 예측 분포를 살펴본 사람이라면 의 중앙값을 요구하는 것이 반드시이 분포를 상당히 넓게 만든다는 사실에 놀라지 않을 것입니다. , 뚱뚱한 꼬리는 쪽으로갑니다 . 이 점에서 Cumming이보고 한 넓은 간격은 놀라운 일이 아닙니다. $p$ $p=0.05$ $1$

그들이 오히려 않습니다 , 제안하는 실험을 복제 할 때 하나의 큰 샘플 크기를 사용한다는 것입니다; 실제로 이것은 복제 연구에 대한 표준 권장 사항입니다 (예 : Uri Simonsohn 은 일반적으로 샘플 크기를 배 늘릴 것을 제안합니다 ). $2.5$

— 아메바의 말에 따르면 복원 모니카
소스

5

(+1) 다행히도 , 당신은 굿맨이나 센에게 일어날 때까지 일어나지 않았습니다. :-)

— 추기경

6

더 흥미로운 토론에 감사드립니다. 점을 언급하는 대신 일반적인 의견을 제시하겠습니다.

베이 즈. 나는 베이지안 접근법에 전혀 반대하는 것이 없다. 처음부터 평평하거나 분산 된 것으로 가정 한 베이지안 분석은 동일하거나 매우 유사한 예측 간격을 제공 할 것으로 예상했습니다. p에 대한 의견이 있습니다. 그것에 대해 2008 기사에서 291, 검토 중 하나에 의해 부분적으로 프롬프트. 따라서 위의 접근 방식을 통해 작업하는 것을 기쁘게 생각합니다. 훌륭하지만, 내가 취한 것과는 매우 다른 접근 방식입니다.

따로, 나는 베이지안 접근법 (신뢰할 수있는 간격을 기초로)에 대한 접근 방식보다는 신뢰 구간 (새로운 통계 : 효과 크기, CI, 메타 분석)의 옹호에 대해 연구하기로 결정했습니다. 베이지안은 초보자에게 충분히 잘 접근합니다. 초보자와 함께 사용할 수 있다고 생각하거나 실제로 많은 수의 연구자들이 접근 할 수 있고 설득력이있는 베이지안 교과서를 전혀 보지 못했습니다. 따라서 연구원들이 통계적 추론을 수행하는 방식을 개선 할 수있는 기회를 가지려면 다른 곳을 살펴 봐야합니다. 예, 우리는 p를 넘어서 움직여야합니다이분법적인 의사 결정에서 추정으로 전환하고 베이지안은 그렇게 할 수 있습니다. 그러나 실질적인 변화를 달성 할 가능성이 훨씬 높은 것은 이미 일반적인 CI 접근법입니다. 이것이 최근에 출시 된 인트로 통계 교과서가 새로운 통계 접근 방식을 취하는 이유입니다. www.thenewstatistics.com 참조

반사로 돌아 가기 내 분석의 중심 은 첫 번째 연구 의 p 값만 아는 것 입니다. 내가 만든 가정이 명시되어 있습니다 (정규 모집단, 무작위 표본 추출, 알려진 모집단 SD이므로 모집단 평균, 정확한 복제에 대한 추론을 수행 할 때 t 계산 대신 z 를 사용할 수 있습니다 ). 그러나 그것이 내가 생각하는 전부입니다. 내 질문은 ' 초기 실험에서 p 만 주어 졌는데 얼마나 멀리 갈 수 있을까?'입니다. 필자의 결론은 복제 실험에서 예상되는 p 의 분포를 찾을 수 있다는 것 입니다. 이 분포에서 p 구간 또는 복제가 p 를 제공 할 확률과 같은 관심 확률을 도출 할 수 있습니다.<.05 또는 기타 관심 가치.

논증의 핵심, 그리고 아마도 가장 많은 가치가있는 단계는 기사의 그림 A2에 설명되어 있습니다. 하반부는 아마도 문제가 없을 것입니다. 우리가 mu를 알고 있다면 (보통 초기 연구의 평균과 같다고 가정함으로써 달성 됨), 굵은 선 세그먼트로 표시되는 추정 오차는 알려진 분포 (일반, 평균 mu, SD)에 설명되어 있습니다.

그런 다음 큰 단계 : 그림 2A의 상반부를 고려하십시오. mu에 대한 정보가 없습니다. 정보가 없음-이전에 대한 숨겨진 가정이 없습니다. 그러나 우리는 두꺼운 선분의 분포를 명시 할 수있다 : 정상, 평균 0, SD = SQRT (2) 곱하기 SD의 절반. 이를 통해 복제 p 의 분포를 찾는 데 필요한 것을 얻을 수 있습니다.

결과 p 간격은 놀랍도록 길다. 적어도 p 값이 실제로 연구원에 의해 보편적으로 사용되는 방식과 비교할 때 놀랍다 . 연구자들은 일반적으로 p 값 의 소수점 둘째 자리 또는 셋째 자리에 대해 집착합니다 . 보고에 대한 PP 293-4에 따라서 내 의견 P는 의 모호성 인정 간격 쪽 .

예,하지만 그렇다고 해서 초기 실험의 p 가 아무것도 의미하지는 않습니다 . 초기 p 가 매우 낮 으면 복제는 평균적으로 p 값 이 작은 경향이 있습니다. 초기 p 및 복제가 높을 수록 p 값 이 다소 큰 경향이 있습니다 . p.1의 표 1을 참조하십시오. 예를 들어, 초기 p = .001 및 .1 의 오른쪽 열에 있는 p 간격을 비교 합니다. 일반적으로 두 개의 결과가 마일 떨어져 있다고 간주되었습니다. 두 p 간격은 확실히 다르지만 두 p 간격은 엄청나게 겹칩니다. .001 실험의 복제는 p를 매우 쉽게 줄 수 있습니다0.1 실험의 복제보다 큽니다. 가장 가능성이 높지만 그렇지 않습니다.

그의 박사 연구의 일환으로 Jerry Lai는 ( Lai, et al., 2011 ) 여러 분야의 출판 된 연구자 들이 너무 짧은 주관적인 p 간격을 가지고 있다는 몇몇 훌륭한 연구를보고했습니다 . 다시 말해, 연구자들은 복제 의 p 값이 얼마나 다른지를 과소 평가하는 경향이 있습니다.

내 결론은 단순히 p 값을 사용해서는 안된다는 것입니다. 95 % CI를보고하고 논의합니다.이 CI는 조사중인 인구 평균에 대해 알려주는 모든 정보를 데이터에 전달합니다. CI가 주어지면, p 값은 아무 것도 추가하지 않으며, 어느 정도 확실성을 암시합니다 (중요! 중요하지 않음! 효과가 존재합니다! 그렇지 않습니다!). 물론 CI와 p 값은 동일한 이론을 기반으로하며 서로 다른 것으로 변환 할 수 있습니다 (소개 서적 6 장에 많은 내용이 있음). 그러나 CI는 p 보다 더 많은 정보를 제공합니다 . 가장 중요한 것은 불확실성의 정도에 현저한 영향을 미칩니다. 인간이 확실성을 파악하려는 경향이 있으므로 CI의 범위를 고려해야합니다.

또한의 다양성 강조하려 한 페이지의 '의 춤에 값을 페이지의 비디오 값'. 구글 ' p 값 의 춤 '. 최소한 두 가지 버전이 있습니다.

모든 신뢰 구간이 짧을 수 있습니다!

제프

— 제프 커밍
소스

3

이 추가 의견에 감사드립니다, Geoff. 나는 여기에 몇 가지 요점에 동의하고 (예 : "확실성 정도") 다른 것에 동의하지 않습니다 (예 : "CI 제공, p 값은 아무것도 추가하지 않습니다"). 그러나 한 가지 특히 반복 할 필요가 있다고 생각합니다. Bayes없이 분석을 수행 할 수 있는 방법 이 있다고 생각 하십시오. 그림 A2에 제시된 주장은 숨겨진 가정으로 평평해야합니다. 다른 선행을 가정하고 매우 다른 결과에 도달 할 수 있습니다. 나는 당신의 결론을 뒷받침 할 수있는 순전히 빈번한 주장이 없다고 생각합니다. 위의 @whuber의 의견을 참조하십시오.

— amoeba 말한다 Reinstate Monica

@Geoff Cumming-통계 교육 및 결과 해석에 대한 귀하의 의견은 대단히 감사합니다.

— rolando2