p- 값에 대한 대안 이 무엇인지 에 대한 구체적인 질문에이 답변에 중점을 둘 것 입니다.p
Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, ASA와 함께 발표 된 21 개의 토론 논문 이 있습니다 (보충 자료). Sander Greenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark 및 Steve Ziliak (일부 함께 작성) ; 향후 검색을 위해 모두 나열합니다.) 이 사람들은 아마도 과 통계적 추론에 대한 모든 기존 의견을 다룰 것입니다 .피
나는 21 개의 논문을 모두 살펴 보았습니다.
불행히도, 그들의 대부분은 대부분이 제한, 오해, 그리고 다른 다양한 문제에 대해, 비록 실제 대안을 논의하지 않는 -values (의 방어를 위해 페이지의 -values, Benjamini, 메이요, 그리고 SENN 참조). 이것은 이미 대안이 있다면 찾기 쉽고 방어하기 쉽지 않다는 것을 암시합니다.피피
따라서 ASA 명세서 자체에 제공된 "기타 접근법"목록을 살펴보십시오 (귀하의 질문에 인용).
[기타 접근법]에는 신뢰도, 신뢰성 또는 예측 간격과 같은 테스트보다 추정을 강조하는 방법; 베이지안 방법; 가능성 비율 또는 베이 즈 요인과 같은 대안적인 증거 측정; 의사 결정 이론적 모델링 및 잘못된 발견 률과 같은 다른 접근법.
신뢰 구간
신뢰 구간은 과 함께 사용되는 빈번한 도구입니다 . p- 값 과 함께 신뢰 구간 (예 : 평균의 평균 ± 표준 오차)을보고하는 것은 거의 항상 좋은 생각입니다.피±피
어떤 사람들은 (안 ASA의 분쟁 당사자 사이에) 신뢰 구간은해야한다고 제안 교체 -values을. 이 접근 방식의 가장 유명한 지지자 중 하나는 Geoff Cumming이 새로운 통계 라고 부르는 것 입니다. 자세한 비평 은 Cumming 's (2014)의 새로운 통계 : 기존 통계를 새로운 통계로 재판매 하는 Ulrich Schimmack의 블로그 게시물을 참조하십시오 . 또한 Uri Simonsohn 의 실험실 블로그 게시물 에서 효과 크기를 연구 할 여유가 없습니다 .피
Norm Matloff의 비슷한 제안에 대한이 스레드 (및 내 대답)를 참조하십시오 .CI를보고 할 때 여전히 보고 하고 싶다고 주장합니다 .p- 값이 좋은 확실한 설득력있는 예 유용합니까?피
그러나 일부 다른 사람들 (ASA 분쟁 당사자 중 하나도 아님)은 빈번한 도구 인 신뢰 구간이 값만큼 오도되어 폐기되어야한다고 주장합니다. 예를 들어, Morey et al. 2015, 의견에 @Tim에 의해 연결된 신뢰 구간에 자신감을 두는 오류 . 이것은 매우 오래된 논쟁입니다.피
베이지안 방법
(ASA 문이 목록을 구성하는 방법이 마음에 들지 않습니다. 신뢰할 수있는 간격 및 베이 요소는 "베이지안 방법"과 별도로 나열되지만 분명히 베이 시안 도구이므로 여기에 함께 계산합니다.)
베이지안 대 잦은 토론에 대한 거대하고 매우 의견이 많은 문헌이 있습니다. 예를 들어, 몇 가지 생각에 대한이 최근 스레드를 참조하십시오. 언제나 베이 시안보다 잦은 접근 방식이 더 나은가? 하나는 좋은 정보 전과를 가지고 있으며, 모든 사람들은 계산하고보고하게 행복 할 경우 베이지안 분석은 총 의미가 또는 P ( H 0 : θ = 0 | 데이터 ) 대신에 P ( 적어도 극단적 인 데이터를 | H 0 )p ( θ | 데이터 )p ( H0: θ = 0 | 데이터 )p ( 최소한의 데이터 | H0)그러나 아쉽게도 사람들은 일반적으로 좋은 사전을 가지고 있지 않습니다. 한 실험자는 한 조건에서 20 마리의 쥐가 다른 조건에서 같은 일을하는 것을 기록합니다. 예측은 전 쥐의 성능이 후자의 쥐의 성능을 능가 할 것이지만, 성능 차이보다 명확한 사전을 밝힐 의향이있는 사람은 아무도 없을 것이다. (그러나 그는 회의 론적 우선 순위를 사용하여 주장하는 @FrankHarrell의 답변을 참조하십시오.)
Die-hard Bayesians는 유익한 사전 지식이 없더라도 Bayesian 방법을 사용할 것을 제안합니다. 최근의 예는 Krushke 2012, 베이지안 추정은 대체 -test티 겸손 BEST로 약칭. 아이디어는 관심있는 효과의 사후 (예 : 그룹 차이)를 계산하기 위해 약한 정보가없는 사전을 가진 베이지안 모델을 사용하는 것입니다. 잦은 추론과의 실질적인 차이는 보통 사소한 것으로 보이며, 내가 알 수있는 한이 접근법은 여전히 인기가 없습니다. "정보없는 사전"이란 무엇입니까?를 참조하십시오 . 진정으로 정보가없는 것을 가질 수 있습니까? "정보가없는"내용에 대한 논의를 위해 (답변 : 그런 것은 없으며, 따라서 논쟁이 있습니다).
Harold Jeffreys로 돌아가는 대안은 Bayesian 테스트 (Bayesian 추정 과 반대)를 기반으로 하며 Bayes 요인을 사용합니다. 더 웅변적이고 다재다능한 지지자 중 하나는 최근 몇 년간이 주제에 관해 많은 논문을 발표 한 Eric-Jan Wagenmakers 입니다. 이 접근법의 두 가지 특징은 여기서 강조 할 가치가 있습니다. 첫째, 참조 Wetzels 등., 2012, ANOVA의 기본 베이지안 가설 테스트 설계 등 베이지안 테스트의 결과가 대체 가설의 특정 선택에 따라 달라질 수 있습니다 얼마나 강하게의 그림은 H1그리고 매개 변수 분포 ( "prior")가 위치합니다. 둘째, 일단 "합리적인"사전이 선택되면 (Wagenmakers가 Jeffreys의 "기본"사전이라고 광고 함) 결과 베이 즈 요인은 종종 표준 과 상당히 일치하는 것으로 판명됩니다. 예를 들어 Marsman & 웨이퍼 메이커 :피
Wagenmakers et al. 그 주장 유지 -values 깊이 결함이와 베이 즈 요인 (공정하게 ... 하나는하지만 궁금해 할 수없는, 갈 수있는 방법의 포인트 Wetzels 등. 2011 년 에 대한 것입니다 P는 가까운 -values 0.05 베이 즈는 요인 null에 대한 매우 약한 증거를 나타내지 만, 이것은 종종 더 많은 사람들이 옹호 하는 좀 더 엄격한 α 를 사용하여 빈번한 패러다임에서 쉽게 다룰 수 있습니다 .) 피피0.05α
Wagenmakers et al.의 가장 인기있는 논문 중 하나. 베이 즈 요인을 방어하는 데있어 2011 년은 심리학자들이 데이터 분석 방식을 변경해야하는 이유 : 미래 예측에 대한 악명 높은 m의 논문이 베이 즈 요인 만 사용한 경우 잘못된 결론에 도달하지 않았다고 주장하는 psi의 사례 의 -values. 자세한 정보 (및 IMHO 설득력있는) 반대론에 대한 Ulrich Schimmack의이 사려 깊은 블로그 게시물을 참조하십시오. 심리학자들이 데이터를 분석하는 방식을 변경해서는 안되는 이유 : 악마는 기본 우선 순위에 있습니다.피
참조 베이지안 테스트가 작은 효과에 대해 편견되는 기본 열린 Simonsohn에 의해 블로그 게시물을.
완성도를 위해, 나는 언급 Wagenmakers 2007 년의 보급 문제에 대한 실용적인 솔루션 -values을피 바꾸기 위해 베이 즈 요인에 근사치로 BIC를 사용하도록 제안 -values을. BIC는 이전에 의존하지 않으므로 이름에도 불구하고 실제로 베이지안이 아닙니다. 이 제안에 대해 어떻게 생각해야할지 모르겠습니다. 더 최근에 Wagenmakers는 유익하지 않은 Jeffreys의 선행으로 베이지안 테스트에 더 유리한 것으로 보입니다 (위 참조).피
베이지안 추정 대 베이지안 검정에 대한 자세한 내용은 베이지안 모수 추정 또는 베이지안 가설 검정을 참조하십시오 . 그 안에 링크.
최소 베이 요인
ASA 분쟁 중, 이것은 Benjamin & Berger와 Valen Johnson (구체적인 대안을 제시하는 유일한 두 논문)에 의해 제시됩니다. 그들의 구체적인 제안은 조금 다르지만 정신적으로 비슷합니다.
버거의 아이디어는 돌아가 버거 & Sellke 1987 및이 논문의 수가 작년에이 일에 정성 들여까지 버거, Sellke 및 협력자 최대로는. 아이디어는 점 널 스파이크 슬래브 종래하에이다 가설 가져 확률 0.5 그리고 다른 모든 값 μ는 확률을 얻을 0.5 퍼져 대칭 0 후 ( "로컬 대체") 최소 후방 P ( H 0 ) 위에 모든 지역 대안, 즉 최소 베이 즈 계수 는 p 보다 훨씬 높습니다.μ = 00.5μ0.50p ( H0)피-값. 이것은 값이 널에 대해 "증거를 과장" 한다고 주장하는 (많은 논쟁의 여지가있는) 주장 의 근거입니다. p- 값 대신 널 (NULL)에 찬성하여 Bayes 계수에 하한을 사용하는 것이 좋습니다 . 몇몇 광범위한 가정 하에서이 하한이 주어진 것으로 밝혀 - E (P)의 로그 ( P ) 즉, 상기 P는 - 값을 효과적으로 곱한다 - E 로그 ( P ) 주위의 인자 (10) 에 20 공통 범위 의 P는 -values. 이 접근법 은 승인되었습니다피피− e p 로그( p )피− 전자 로그( p )1020피 Steven Goodman도
나중에 업데이트 : 간단한 방법으로 이러한 아이디어를 설명 하는 멋진 만화를 보십시오 .
이후 업데이트 : p- 값 을 최소 베이 요인 으로 변환 하는 것에 대한 포괄적 인 검토 및 추가 분석은 Held & Ott, 2018, 및 베이 요인에피 대해 . 여기 하나의 테이블이 있습니다.피
Valen Johnson은 PNAS 2013 논문 에서 비슷한 내용을 제안했습니다 . 그의 제안은 대략 에 √ 를 곱하는 것으로 요약됩니다.피 는 약5~10입니다.- 4 π로그( p )−−−−−−−−−√510
Johnson의 논문에 대한 간략한 비판은 Andrew Gelman과 @ Xi'an의 PNAS 답변 을 참조하십시오 . Berger & Sellke 1987에 대한 반론은 Casella & Berger 1987 (다른 Berger!)을 참조하십시오 . APA 토론 보고서 중에서 Stephen Senn은 다음과 같은 접근 방식에 대해 명시 적으로 주장합니다.
오류 확률은 사후 확률이 아닙니다. 확실히 값보다 통계 분석에 훨씬 더 많은 것이 있지만, 2 차 베이지안 후 확률이되기 위해 어떤 식 으로든 변형되지 않고 홀로 남겨 두어야합니다.피
Mayo의 블로그를 포함한 Senn의 논문 참조도 참조하십시오.
ASA 선언문에는 또 다른 대안으로 "결정 이론 모델링 및 잘못된 발견 비율"이 나와 있습니다. 나는 그들이 무슨 말을하는지 전혀 모른다. 그리고 나는 Stark의 토론 논문에서 이것을 언급하게되어 기뻤다.
"기타 접근법"섹션은 이러한 방법 중 일부의 가정이 의 가정과 동일하다는 사실을 무시합니다 . 실제로, 일부 방법은 p- 값 을 입력으로 사용합니다 (예 : False Discovery Rate).피피
p- 값 (복제 위기, p- 해킹 등) 과 관련된 문제가 사라지도록 실제 과학 관행에서 p- 값 을 대체 할 수있는 것이 있다는 것에 회의적입니다 . 같은 고정 된 의사 결정 절차, 예를 들어, 베이지안 하나가 아마 같은 방식으로 "해킹"할 수 페이지의 -values이 될 수 p는 (이 중 일부 토론과 데모를 참조 -hacked 열린 Simonsohn하여이 2014 블로그 게시물을 ).피피피피피
Andrew Gelman의 토론 논문에서 인용하면 :
요약하면, 나는 에 대한 ASA의 진술 대부분에 동의 하지만 문제는 더 깊고 해결책은 p- 값 을 개혁 하거나 다른 통계적 요약 또는 임계 값으로 대체하는 것이 아니라 오히려 불확실성을 수용하고 변화를 수용하는 방향으로 나아가십시오.피피
그리고 Stephen Senn으로부터 :
간단히 말해서, 문제는 자체 는 적지 만 우상을 만드는 것에는 문제가되지 않습니다. 다른 거짓 신을 대치하는 것은 도움이되지 않습니다.피
그리고 여기 코헨은 그의 잘 알려진 (3.5K 인용) 고 인용 1,994 종이에 넣어 어떻게 지구는 원형이다 ( )p < 0.05 그가에 대해 매우 강력하게 주장 -values :피
[...] NHST에 대한 마술 대안, 그것을 대체 할 다른 객관적인 기계적 의식을 찾지 마십시오. 존재하지 않습니다.