ASA는 한계에 대해 논의 합니다. 대안은 무엇입니까?


100

우리는 이미 여러 스레드에 으로 태그가 지정되어 있으며 이들에 대해 많은 오해가 있습니다. 10 개월 전에 우리에 대한 스레드를했다 "금지"라는 심리학 저널 -values을 p 지금, 미국의 통계 협회 (2016) 분석과 우리 "는의 계산으로 끝나지해야한다고 말한다 - 값".

ASA (American Statistical Association)는 과학계가 값 의 올바른 사용과 해석에 기반을 둔 널리 합의 된 몇 가지 원칙을 명확하게 밝히는 공식 진술의 혜택을 누릴 수 있다고 생각합니다 .

위원회는 대한 가능한 대안 또는 보완으로 다른 접근법을 나열합니다 .

에 대한 일반적인 오용과 오해를 고려하여 일부 통계학 자는 을 다른 방법 으로 보완하거나 대체하는 것을 선호합니다 . 여기에는 신뢰도, 신뢰성 또는 예측 간격과 같이 테스트보다 추정을 강조하는 방법; 베이지안 방법; 가능성 비율 또는 베이 즈 요인과 같은 대안적인 증거 측정; 의사 결정 이론적 모델링 및 잘못된 발견 률과 같은 다른 접근법. 이러한 모든 측정 및 접근법은 추가 가정에 의존하지만 효과의 크기 (및 관련 불확실성) 또는 가설이 올바른지 더 직접적으로 다룰 수 있습니다. p

그럼 포스트 가정 해 봅시다 -values 현실을. ASA에는 대신 사용할 수있는 몇 가지 방법이 나열되어 있지만 왜 더 나은가? 평생 동안 을 사용한 연구원을 대체 할 수있는 것은 무엇입니까? 나는 질문에 이런 종류의 상상 합니다 포스트에 나타나는 그래서 아마의이 한 발 앞서 그들로 해보자, -values 현실. 기본적으로 적용 할 수있는 합리적인 대안은 무엇입니까? 왜이 접근 방식이 선임 연구원, 편집자 또는 독자를 설득해야합니까?p p p

후속 블로그 항목에서 알 수 있듯이 은 단순성이 뛰어납니다 .

p- 값은 귀무 가설 하에서 통계의 거동에 대해 통계 모델 만 필요합니다. 대체 가설 모형이 "좋은"통계량 (p- 값 구성에 사용됨)을 선택하는 데 사용되는 경우에도 p- 값이 유효하기 위해이 대체 모형이 정확하지 않아도됩니다. 유용합니다 (예 : 실제 효과를 감지 할 수있는 힘을 제공하면서 원하는 수준의 제어 유형 I 오류). 반대로 우도 비율, 효과 크기 추정, 신뢰 구간 또는 베이지안 방법과 같은 다른 (멋지고 유용한) 통계 방법은 모두 검정 된 널 (null)이 아니라 광범위한 상황을 수용하기 위해 가정 된 모델이 필요합니다.

그것들은 사실입니까, 아니면 사실이 아니며 쉽게 대체 할 수 있습니까?

나는 이것이 광범위하다는 것을 알고 있지만 주요 질문은 간단합니다. 대체로 사용할 수있는 값에 대한 최상의 대안은 무엇입니까?


ASA (2016). 통계적 유의성과 에 대한 ASA 설명 . 미국 통계 학자. (프레스에서)


3
고전적인 질문 +1이 되십시오! 베이지안 접근법은 우리가 자주 관심있는 질문에 답할 수 있기 때문에 "증거 (데이터)에 비추어 볼 때, 가설이 사실 일 확률은 얼마입니까?"
Christoph Hanck

9
"Post- - reality"에는 훌륭한 디스토피아 링이 있습니다.
Marc Claesen

4
ASA 선언문과 함께 게시 된 토론 문서는 p- 값을 대체 할 수있는 항목에 대한 제안이 있으므로 읽을 가치가 있습니다. 보충 내용
Seth

2
p-value의 잠재적 남용에 대한 경고 중 하나 인 ASA 보고서의 다른 부분을 기반으로 관련 질문을 게시했습니다. p- 해킹에 대해 얼마나 알고 있습니까?
Silverfish

1
내 자신의 질문에 대한 의견으로 비슷한 주제를 논의하는 멋진 스레드가 있습니다 : stats.stackexchange.com/questions/17897/…
Tim

답변:


100

p- 값에 대한 대안무엇인지 에 대한 구체적인 질문에이 답변에 중점을 둘 것 입니다.

Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, ASA와 함께 발표 된 21 개의 토론 논문 이 있습니다 (보충 자료). Sander Greenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark 및 Steve Ziliak (일부 함께 작성) ; 향후 검색을 위해 모두 나열합니다.) 이 사람들은 아마도 과 통계적 추론에 대한 모든 기존 의견을 다룰 것입니다 .

나는 21 개의 논문을 모두 살펴 보았습니다.

불행히도, 그들의 대부분은 대부분이 제한, 오해, 그리고 다른 다양한 문제에 대해, 비록 실제 대안을 논의하지 않는 -values (의 방어를 위해 페이지의 -values, Benjamini, 메이요, 그리고 SENN 참조). 이것은 이미 대안이 있다면 찾기 쉽고 방어하기 쉽지 않다는 것을 암시합니다.

따라서 ASA 명세서 자체에 제공된 "기타 접근법"목록을 살펴보십시오 (귀하의 질문에 인용).

[기타 접근법]에는 신뢰도, 신뢰성 또는 예측 간격과 같은 테스트보다 추정을 강조하는 방법; 베이지안 방법; 가능성 비율 또는 베이 즈 요인과 같은 대안적인 증거 측정; 의사 결정 이론적 모델링 및 잘못된 발견 률과 같은 다른 접근법.

  1. 신뢰 구간

    신뢰 구간은 과 함께 사용되는 빈번한 도구입니다 . p- 값 과 함께 신뢰 구간 (예 : 평균의 평균 ± 표준 오차)을보고하는 것은 거의 항상 좋은 생각입니다.±

    어떤 사람들은 (안 ASA의 분쟁 당사자 사이에) 신뢰 구간은해야한다고 제안 교체 -values을. 이 접근 방식의 가장 유명한 지지자 중 하나는 Geoff Cumming이 새로운 통계 라고 부르는 것 입니다. 자세한 비평 은 Cumming 's (2014)의 새로운 통계 : 기존 통계를 새로운 통계로 재판매 하는 Ulrich Schimmack의 블로그 게시물을 참조하십시오 . 또한 Uri Simonsohn 의 실험실 블로그 게시물 에서 효과 크기를 연구 할 여유가 없습니다 .

    Norm Matloff의 비슷한 제안에 대한이 스레드 (및 내 대답)를 참조하십시오 .CI를보고 할 때 여전히 보고 하고 싶다고 주장합니다 .p- 값이 좋은 확실한 설득력있는 예 유용합니까?

    그러나 일부 다른 사람들 (ASA 분쟁 당사자 중 하나도 아님)은 빈번한 도구 인 신뢰 구간이 값만큼 오도되어 폐기되어야한다고 주장합니다. 예를 들어, Morey et al. 2015, 의견에 @Tim에 의해 연결된 신뢰 구간에 자신감을 두는 오류 . 이것은 매우 오래된 논쟁입니다.

  2. 베이지안 방법

    (ASA 문이 목록을 구성하는 방법이 마음에 들지 않습니다. 신뢰할 수있는 간격 및 베이 요소는 "베이지안 방법"과 별도로 나열되지만 분명히 베이 시안 도구이므로 여기에 함께 계산합니다.)

    • 베이지안 대 잦은 토론에 대한 거대하고 매우 의견이 많은 문헌이 있습니다. 예를 들어, 몇 가지 생각에 대한이 최근 스레드를 참조하십시오. 언제나 베이 시안보다 잦은 접근 방식이 더 나은가? 하나는 좋은 정보 전과를 가지고 있으며, 모든 사람들은 계산하고보고하게 행복 할 경우 베이지안 분석은 총 의미가 또는 P ( H 0 : θ = 0 | 데이터 ) 대신에 P ( 적어도 극단적 인 데이터를 | H 0 )(θ|데이터)(H0:θ=0|데이터)(최소한 극단적 인 데이터|H0)그러나 아쉽게도 사람들은 일반적으로 좋은 사전을 가지고 있지 않습니다. 한 실험자는 한 조건에서 20 마리의 쥐가 다른 조건에서 같은 일을하는 것을 기록합니다. 예측은 전 쥐의 성능이 후자의 쥐의 성능을 능가 할 것이지만, 성능 차이보다 명확한 사전을 밝힐 의향이있는 사람은 아무도 없을 것이다. (그러나 그는 회의 론적 우선 순위를 사용하여 주장하는 @FrankHarrell의 답변을 참조하십시오.)

    • Die-hard Bayesians는 유익한 사전 지식이 없더라도 Bayesian 방법을 사용할 것을 제안합니다. 최근의 예는 Krushke 2012, 베이지안 추정은 대체 -testt 겸손 BEST로 약칭. 아이디어는 관심있는 효과의 사후 (예 : 그룹 차이)를 계산하기 위해 약한 정보가없는 사전을 가진 베이지안 모델을 사용하는 것입니다. 잦은 추론과의 실질적인 차이는 보통 사소한 것으로 보이며, 내가 알 수있는 한이 접근법은 여전히 ​​인기가 없습니다. "정보없는 사전"이란 무엇입니까?를 참조하십시오 . 진정으로 정보가없는 것을 가질 수 있습니까? "정보가없는"내용에 대한 논의를 위해 (답변 : 그런 것은 없으며, 따라서 논쟁이 있습니다).

    • Harold Jeffreys로 돌아가는 대안은 Bayesian 테스트 (Bayesian 추정 과 반대)를 기반으로 하며 Bayes 요인을 사용합니다. 더 웅변적이고 다재다능한 지지자 중 하나는 최근 몇 년간이 주제에 관해 많은 논문을 발표 Eric-Jan Wagenmakers 입니다. 이 접근법의 두 가지 특징은 여기서 강조 할 가치가 있습니다. 첫째, 참조 Wetzels 등., 2012, ANOVA의 기본 베이지안 가설 테스트 설계 등 베이지안 테스트의 결과가 대체 가설의 특정 선택에 따라 달라질 수 있습니다 얼마나 강하게의 그림은 H1그리고 매개 변수 분포 ( "prior")가 위치합니다. 둘째, 일단 "합리적인"사전이 선택되면 (Wagenmakers가 Jeffreys의 "기본"사전이라고 광고 함) 결과 베이 즈 요인은 종종 표준 과 상당히 일치하는 것으로 판명됩니다. 예를 들어 Marsman & 웨이퍼 메이커 :

      베이 즈 계수 대 p- 값

      Wagenmakers et al. 그 주장 유지 -values 깊이 결함이와 베이 즈 요인 (공정하게 ... 하나는하지만 궁금해 할 수없는, 갈 수있는 방법의 포인트 Wetzels 등. 2011 년 에 대한 것입니다 P는 가까운 -values 0.05 베이 즈는 요인 null에 대한 매우 약한 증거를 나타내지 만, 이것은 종종 더 많은 사람들이 옹호 하는 좀 더 엄격한 α 를 사용하여 빈번한 패러다임에서 쉽게 다룰 수 있습니다 .) 0.05α

      Wagenmakers et al.의 가장 인기있는 논문 중 하나. 베이 즈 요인을 방어하는 데있어 2011 년은 심리학자들이 데이터 분석 방식을 변경해야하는 이유 : 미래 예측에 대한 악명 높은 m의 논문이 베이 즈 요인 만 사용한 경우 잘못된 결론에 도달하지 않았다고 주장하는 psi의 사례 -values. 자세한 정보 (및 IMHO 설득력있는) 반대론에 대한 Ulrich Schimmack의이 사려 깊은 블로그 게시물을 참조하십시오. 심리학자들이 데이터를 분석하는 방식을 변경해서는 안되는 이유 : 악마는 기본 우선 순위에 있습니다.

      참조 베이지안 테스트가 작은 효과에 대해 편견되는 기본 열린 Simonsohn에 의해 블로그 게시물을.

    • 완성도를 위해, 나는 언급 Wagenmakers 2007 년의 보급 문제에 대한 실용적인 솔루션 -values을 바꾸기 위해 베이 즈 요인에 근사치로 BIC를 사용하도록 제안 -values을. BIC는 이전에 의존하지 않으므로 이름에도 불구하고 실제로 베이지안이 아닙니다. 이 제안에 대해 어떻게 생각해야할지 모르겠습니다. 더 최근에 Wagenmakers는 유익하지 않은 Jeffreys의 선행으로 베이지안 테스트에 더 유리한 것으로 보입니다 (위 참조).


    베이지안 추정 대 베이지안 검정에 대한 자세한 내용은 베이지안 모수 추정 또는 베이지안 가설 검정을 참조하십시오 . 그 안에 링크.

  3. 최소 베이 요인

    ASA 분쟁 중, 이것은 Benjamin & Berger와 Valen Johnson (구체적인 대안을 제시하는 유일한 두 논문)에 의해 제시됩니다. 그들의 구체적인 제안은 조금 다르지만 정신적으로 비슷합니다.

    • 버거의 아이디어는 돌아가 버거 & Sellke 1987 및이 논문의 수가 작년에이 일에 정성 들여까지 버거, Sellke 및 협력자 최대로는. 아이디어는 점 널 스파이크 슬래브 종래하에이다 가설 가져 확률 0.5 그리고 다른 모든 값 μ는 확률을 얻을 0.5 퍼져 대칭 0 후 ( "로컬 대체") 최소 후방 P ( H 0 ) 위에 모든 지역 대안, 즉 최소 베이 즈 계수p 보다 훨씬 높습니다.μ=00.5μ0.50(H0)-값. 이것은 값이 널에 대해 "증거를 과장" 한다고 주장하는 (많은 논쟁의 여지가있는) 주장 의 근거입니다. p- 값 대신 널 (NULL)에 찬성하여 Bayes 계수에 하한을 사용하는 것이 좋습니다 . 몇몇 광범위한 가정 하에서이 하한이 주어진 것으로 밝혀 - E (P)의 로그 ( P ) 즉, 상기 P는 - 값을 효과적으로 곱한다 - E 로그 ( P ) 주위의 인자 (10)20 공통 범위 의 P는 -values. 이 접근법 은 승인되었습니다이자형로그()이자형로그()1020 Steven Goodman도

      나중에 업데이트 : 간단한 방법으로 이러한 아이디어를 설명 하는 멋진 만화를 보십시오 .

      이후 업데이트 : p- 값 을 최소 베이 요인 으로 변환 하는 것에 대한 포괄적 인 검토 및 추가 분석은 Held & Ott, 2018, 및 베이 요인에 대해 . 여기 하나의 테이블이 있습니다.

      최소 베이 즈 요인

    • Valen Johnson은 PNAS 2013 논문 에서 비슷한 내용을 제안했습니다 . 그의 제안은 대략 를 곱하는 것으로 요약됩니다. 는 약5~10입니다.4π로그()510


    Johnson의 논문에 대한 간략한 비판은 Andrew Gelman과 @ Xi'an의 PNAS 답변 을 참조하십시오 . Berger & Sellke 1987에 대한 반론은 Casella & Berger 1987 (다른 Berger!)을 참조하십시오 . APA 토론 보고서 중에서 Stephen Senn은 다음과 같은 접근 방식에 대해 명시 적으로 주장합니다.

    오류 확률은 사후 확률이 아닙니다. 확실히 값보다 통계 분석에 훨씬 더 많은 것이 있지만, 2 차 베이지안 후 확률이되기 위해 어떤 식 으로든 변형되지 않고 홀로 남겨 두어야합니다.

    Mayo의 블로그를 포함한 Senn의 논문 참조도 참조하십시오.

  4. ASA 선언문에는 또 다른 대안으로 "결정 이론 모델링 및 잘못된 발견 비율"이 나와 있습니다. 나는 그들이 무슨 말을하는지 전혀 모른다. 그리고 나는 Stark의 토론 논문에서 이것을 언급하게되어 기뻤다.

    "기타 접근법"섹션은 이러한 방법 중 일부의 가정이 의 가정과 동일하다는 사실을 무시합니다 . 실제로, 일부 방법은 p- 값 을 입력으로 사용합니다 (예 : False Discovery Rate).


p- 값 (복제 위기, p- 해킹 등) 과 관련된 문제가 사라지도록 실제 과학 관행에서 p- 값 을 대체 할 수있는 것이 있다는 것에 회의적입니다 . 같은 고정 된 의사 결정 절차, 예를 들어, 베이지안 하나가 아마 같은 방식으로 "해킹"할 수 페이지의 -values이 될 수 p는 (이 중 일부 토론과 데모를 참조 -hacked 열린 Simonsohn하여이 2014 블로그 게시물을 ).

Andrew Gelman의 토론 논문에서 인용하면 :

요약하면, 나는 에 대한 ASA의 진술 대부분에 동의 하지만 문제는 더 깊고 해결책은 p- 값 을 개혁 하거나 다른 통계적 요약 또는 임계 값으로 대체하는 것이 아니라 오히려 불확실성을 수용하고 변화를 수용하는 방향으로 나아가십시오.

그리고 Stephen Senn으로부터 :

간단히 말해서, 문제는 자체 는 적지 만 우상을 만드는 것에는 문제가되지 않습니다. 다른 거짓 신을 대치하는 것은 도움이되지 않습니다.

그리고 여기 코헨은 그의 잘 알려진 (3.5K 인용) 고 인용 1,994 종이에 넣어 어떻게 지구는 원형이다 ( )<0.05 그가에 대해 매우 강력하게 주장 -values :

[...] NHST에 대한 마술 대안, 그것을 대체 할 다른 객관적인 기계적 의식을 찾지 마십시오. 존재하지 않습니다.


1
@amoeba 감사합니다, 이것은 훌륭한 요약입니다! 나는 당신의 회의론에 동의합니다.이 스레드는 공유하기 때문에 부분적으로 발생했습니다. 이 시점에서 나는 누군가가 진실되고 좋은 대안이 존재한다는 설득력있는 예제와 주장을 제공 할 수 있기 때문에 스레드를 열린 채로 둡니다.
Tim

1
: @amoeba Wagenmakers 및 BIC에 대한이 겔만으로 예 비판,와 비교하는 것이 좋다 andrewgelman.com/2008/10/23/i_hate_bic_blah

2
이것은 CV에서 가장 많이 투표 된 답변 중 하나 인 진정한 인상적인 답변입니다. 팀이 끝나고 언젠가 다른 현상금을 추가 할 수 있습니다.
gung

고마워, @ 궁, 나는 그것이 당신에게서 많은 것을 의미한다는 것을 듣고 기쁘다. 나는 베이지안 테스트에 표면적으로 만 익숙하고 그것에 대한 실습 경험이 없다고 말해야합니다. 따라서이 답변은 내가 읽은 내용에 대한 요약을 제공하지만 실제로 전문가 의견은 아닙니다.
amoeba

1
Bayes가 제대로 작동하기 위해서는 유익한 정보가 필요하지 않습니다. 슈피겔 할 터 (Spiegelhalter)가 잘 보여준 것처럼 회의론적인 우선 순위는 중요한 역할을하며 사용하기 쉽다. 베이지안 후 확률은 큰 장점이 있습니다.
Frank Harrell

27

여기 내 센트가 있습니다.

어느 시점에서 많은 응용 과학자들이 다음과 같은 "정리"를 언급했다고 생각합니다.

-값<0.05내 가설은 사실이다.

대부분의 나쁜 관행은 여기에서 나옵니다.

나는 통계를 실제로 이해하지 않고 통계를 사용하는 사람들과 일해 왔으며 여기에 내가 볼 것들이 있습니다.

  1. <0.05

  2. <0.05

  3. 0.05

부정 행위에 대한 강한 감각이없는 정통하고 정직한 과학자들이이 모든 것을 수행합니다. 왜 ? IMHO, 정리 1로 인해.

0.05<0.05<0.05

>0.05

  1. H0:μ1μ2H0=0.2

(μ1>μ2|엑스)(μ1<μ2|엑스)μ1>μ2μ2>μ1

또 다른 관련 사례는 전문가가 원하는 경우입니다.

  1. μ1>μ2>μμ1=μ2=μμ1>μ2>μ

이 가설을 해결할 수있는 유일한 해결책은 대립 가설을 언급하는 것입니다.

따라서 사후 확률, 베이 즈 계수 또는 우도 비율을 신뢰 / 신뢰할 수있는 구간과 함께 사용하면 주요 관련 문제를 줄일 수 있습니다.

내 두 센트 결론


어쩌면 지금 무엇을 계산하고 있었으며 데이터는 무엇이며 숫자는 어디에서 왔습니까?
Tim

@ 팀. feedbak에 대한 Tks. 어떤 예를 말씀하십니까?
peuhp

"(우리가 데이터를 가지고 있기 때문에) 가설을 비교하려고한다 : 10과 10의 데이터를 취하고, p- 값을 계산하라. p = 0.2를 찾아라."
Tim

1
또한 데이터가 그렇지 않다는 것을 암시하는 것처럼 보이지만 가설을 "알고"있는 것이 사실이라고 생각하지 않습니다. 이것은 자신의 이론이 옳다는 강한 직관을 가지고 있었기 때문에 Gregor Mendel이 자신의 실험에 문제가있을 때 어떻게 감지했는지 분명합니다.
dsaxton

@dsaxton 완전히 동의합니다. 어쩌면 그것은 분명하지 않지만 이것이 첫 번째 요점에서 설명하려고 한 가지입니다 : p- 값은 과학적 유도의 궁극적 인 열쇠가 아닙니다 (특정 청중에게는있는 것처럼 보입니다). 특정 조건에서 특정 양의 데이터로 얻은 증거의 통계적 측정입니다. 그리고 hyp가 사실이라고 생각하기에 너무 많은 외부 이유가 있지만 데이터가 "좋은"p 값을 제공 할 때, 다른 것들이 적절하게 언급 된대로 논의 될 수 있습니다. 나는 내 대답에서 더 명확하게하려고 노력할 것입니다.
peuhp

24

  1. 베이 즈법보다 잦은 방법으로 더 많은 소프트웨어를 사용할 수 있습니다.
  2. 현재 일부 베이지안 분석을 실행하는 데 시간이 오래 걸립니다.
  3. 베이지안 방법은 더 많은 사고와 더 많은 시간 투자가 필요합니다. 나는 생각하는 부분을 신경 쓰지 않지만 시간은 종종 짧아 지므로 바로 가기를 사용합니다.
  4. 부트 스트랩은 매우 유연하고 유용한 일상 기술로 베이지안보다는 잦은 세계에 더 연결되어 있습니다.

영향을 미쳤지 만 실제로는 그렇지 않은 데이터 모양을 조정하더라도 임의의 다중성 조정을 수행해야합니다.

가우시안 선형 모델과 지수 분포를 제외하고, 우리가 빈번한 추론으로하는 거의 모든 것은 근사치입니다 (이의 예는 이진 로지스틱 모델이 로그 우도 함수가 매우 이차적이지 않기 때문에 문제를 일으 킵니다). 베이지안 추론을 사용하면 모든 것이 시뮬레이션 오류 내에서 정확합니다 (후부 확률 / 신뢰할 수있는 간격을 얻기 위해 더 많은 시뮬레이션을 수행 할 수 있음).

http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html 에서 내 생각과 발전에 대한 자세한 설명을 작성했습니다 .


3

2

3

1
프랭크, 고마워 나는 베이지안 테스트에 익숙하지 않지만 (그리고 Box & Tiao에 대해 들어 본 적이 없다), 내 일반적인 인상은 베이지안 테스트에서 나온 베이 즈 요소가 정보가없는 이전의 특정 선택에 크게 의존 할 수 있다는 것입니다. 이러한 선택은 동기를 부여하기 어려울 수 있습니다. 나는 믿을만한 간격에 대해서도 마찬가지라고 생각합니다-그들은 유익하지 않은 이전의 선택에 크게 의존 할 것입니다. 사실이 아닙니까? 그렇다면 어떻게 처리해야합니까?
amoeba

2
예, Bayes 요소를 사용하지 않더라도 가능합니다. 잦은 접근 방식은 주제에 대한 다른 모든 지식을 무시하는 이전 방식도 선택합니다. 나는 Spiegelhalter의 회의적인 사전 접근법을 선호합니다. 이상적인 세상에서는 회의론자들이 이전을 제공하게 할 것입니다.
Frank Harrell

6

Wharton 의 화려한 예측 기자 Scott Armstrong 은 거의 10 년 전에 공동 창립 저널을 예측하는 국제 저널 에 예측 테스트에서 해로운 진행 예측 이라는 제목의 기사를 발표 했습니다. 이것이 예측 중이지만 모든 데이터 분석 또는 의사 결정에 일반화 될 수 있습니다. 이 기사에서 그는 다음과 같이 말합니다.

"통계적 유의성 테스트는 과학적 진보에 해를 끼칩니다.이 결론에 대한 예외를 찾기위한 노력은 현재까지도 밝혀지지 않았습니다."

이는 유의성 테스트 및 P 값에 대한 반추 론적 관점에 관심이있는 사람에게는 훌륭한 자료입니다.

내가이 기사를 좋아하는 이유는 암스트롱이 간결하고 특히 통계가가 아닌 사람에게 쉽게 이해 될 수있는 유의성 테스트에 대한 대안을 제공하기 때문입니다. 이것은 내 의견으로는 질문에 인용 된 ASA 기사보다 훨씬 낫습니다.여기에 이미지 설명을 입력하십시오

나는 무작위로 실험 연구 또는 준 실험을 할 때를 제외하고는 계속해서 포용하고 중요성 테스트를 사용하거나 P 값을 보는 것을 중단했습니다. 제약 산업 / 생명 과학과 일부 공학 분야를 제외하고는 실제로 무작위 실험을 추가하는 것은 매우 드 rare니다.


4
"무작위 화 실험은 제약 산업과 일부 공학 분야를 제외하고는 실제로 매우 드물다"는 것은 무엇을 의미합니까? 무작위 실험은 생물학과 심리학의 모든 곳에 있습니다 .
amoeba

생명 과학을 포함하도록 편집했습니다.
예측 자

2
알았어,하지만 그 랜드 말. 특급. 의학 및 생명 과학을 제외하고는 "매우 드문"이고 심리학은 기본적으로 그들이 "매우 일반적"이라고 말합니다. 그래서 나는 당신의 요점에 대해 확신하지 못합니다.
amoeba

6

현대 테스트를 수행하는 방식이 현대적인 방법에 크게 기여한 Fisher와 Neyman-Pearson의 이론과 관점에 동의하지 않는다는 점을 지적하겠습니다. Fisher의 원래 제안은 과학자들이 질적으로 비교하고 해야한다는 것이었다.. 나는 이것이 여전히 적절한 접근법이라고 생각하며, 이는 그 결과에 대한 과학적 적용 가능성에 대한 문제를 컨텐츠 전문가의 손에 맡긴다. 이제 현대 응용 프로그램에서 발견되는 오류는 결코 과학으로서의 통계 결함이 아닙니다. 또한 낚시, 외삽, 과장 등이 있습니다. 실제로, 심장 전문의가 거짓말을하고 평균 혈압 0.1mmHg를 낮추는 약물이 "임상 적으로 중요"하다고 주장해야한다면 통계가 그런 종류의 부정직으로부터 우리를 보호 할 수는 없습니다.

우리는 결정 이론적 통계 추론을 끝내야합니다. 우리는 가설을 넘어 생각하기 위해 노력해야합니다. 임상 적 유용성과 가설 중심의 조사 사이의 격차가 커짐에 따라 과학적 완전성이 손상됩니다. "중요한"연구는 매우 암시하지만 임상 적으로 의미있는 결과를 거의 약속하지 않습니다.

가설 주도 추론의 속성을 조사한다면 이것은 분명하다.

  • 언급 된 귀무 가설은 현재의 지식에 동의하지 않으며, 이유나 기대를 무시합니다.
  • 저자가 막으려 고하는 시점에 가설이 접할 수 있습니다. 예를 들어, 관찰 연구가 공공 정책과 홍보에 영향을 미친다는 주장에 도달 한 저자들과 통계는 다음 기사에서 논의되는 많은 논의와 거의 일치하지 않습니다.
  • 가설은 관심 모집단을 적절하게 정의하지 않고 지나치게 일반화되는 경향이 있다는 점에서 불완전한 경향이 있습니다.

나에게 대안은 메타 분석 접근법, 적어도 질적 접근법이 있습니다. 모든 결과는 노출, 결과에 사용되는 포함 / 제외 기준, 단위 또는 척도, 효과 크기 및 불확실성 간격 (95 % CI로 가장 잘 요약 됨)과 같이 매우 신중하게 설명 된 다른 "유사한"결과 및 차이점에 대해 엄격하게 조사해야합니다. ).

또한 독립적 인 확인 시험을 수행해야합니다. 많은 사람들이 하나의 겉보기에 중요한 재판으로 흔들리지 만, 복제 없이는 연구가 윤리적으로 수행되었다는 것을 믿을 수 없습니다. 많은 사람들이 증거를 위조하여 과학적 경력을 쌓았습니다.


피셔의 원래 제안은 과학자들이 p- 값을 연구의 힘과 질적으로 비교하고 결론을 도출해야한다는 것이었다. 나는이 점을 좋아한다. 피셔가이 말을 인용 한 것을 인용 할 수 있는가? 만약 과학자들이 p <0.05의 간단한 이분법에서 약간 적은 간단한 이분법으로 옮겼다면 그것은 큰 발전이 될 것입니다. "p <0.05 AND 검정력이 높으면, 우리는 상당히 강력한 증거를 가지고 있습니다. p> 0.05 OR 우리는 더 많은 데이터를 얻을 때까지이 가설에 대한 판단을 보류 할 것입니다. "
civilstat

6

의학 문헌에 대한 두 가지 참고 문헌은 (1) 추정 및 신뢰 구간을 향한 MJS 인 Langman 과 {P} 값이 아닌 신뢰 구간 인 DG (Gardner MJ 및 Altman) : 가설 검정보다는 추정


2
실제로 CI 는 효과의 크기와 정확성을 보여주지 않습니다. 예 : Morey et al (2015) "신뢰 구간에 대한 신뢰의 오류"Psychonomic Bulletin & Review : learnbayes.org/papers/confidenceIntervalsFallacy
Tim

8
@Tim, 좋은 종이, 나는 전에 그것을 보지 못했다; 나는 잠수함의 예를 좋아했다. 링크 주셔서 감사합니다. 그러나 진정한 베이지안 당파 자들에 의해 쓰여졌다 고 말해야한다. "베이지 아가 아닌 구간은 바람직하지 않고 기괴한 특성을 가지고있어, 합리적인 분석가가 추론을 이끌어 내기위한 수단으로 그것들을 거부하게 할 것이다." 합리적인 분석가! 인상적인 오만.
amoeba

1
@amoeba는 나에게 반올림의 예를 제공하고 있다는 것에 동의합니다. 왜냐하면 나에 관해서는 대안이 첫눈에 분명하고 직접적이라는 것이 분명하지 않기 때문입니다.
Tim

4
흥미있는 동안 나는 잠수함 예제를 찾지 못했습니다. 생각 통계학자가 예제의 것과 같은 방식으로 추론하지는 않습니다. 생각을 멈추지 않고 다른 상황에서 유용하기 때문에 모든 상황에 맹목적으로 적용합니다.
dsaxton

2
@amoeba : 그 특정 인용에서, "비 베이지안 간격"은 구체적으로이 예에서 논의 된 간격을 나타내며, 비 베이지안 논리에 의해 정당화되는 모든 간격은 아닙니다. 자세한 내용은 여기를 참조하십시오 : stats.stackexchange.com/questions/204530/…
richarddmorey

1

p 값을 계속 사용하지만 신뢰 / 신뢰할 수있는 구간을 추가하고 1 차 결과 예측 구간을 추가하는 것이 좋습니다. Douglas Altman (Wiley 통계, Wiley 통계)의 멋진 책이 있으며 boostrap 및 MCMC 접근 방식 덕분에 항상 합리적으로 강력한 간격을 만들 수 있습니다.


6
"당신은 왜 그들이 더 낫습니까?"/ "이 접근법이 왜 당신의 선임 연구원, 편집자 또는 독자들을 설득해야합니까?"라는 주된 질문에 실제로 대답하지는 않는다고 생각합니다. 당신은 당신의 선택을 개발할 수 있습니까?
peuhp

1. 그것은 단지 현재의 실천을 가능하게합니다. 2. 어쨌든 CI로 "백도어 유의성 테스트"를 수행하는 경향이 있습니다. 3. 중요도 테스트 (p- 값 또는 CI로)는 낮은 재현성 비율을 초래합니다 (팀 래쉬의 기사 참조). 4. 임상 적으로 유의미한 경계 또는 임계 값을 사전에 지정하도록 연구원을 귀찮게 할 수 없습니다.
AdamO

1

  • 대상 집단의 결과를 시뮬레이션 할 수있는보다 정교한 모델 개발
  • 제안 된 결정, 치료 또는 정책이 구현 될 수있는 대상 집단의 속성을 식별하고 측정
  • 수명, 품질 조정 수명, 달러, 작물 생산량 등과 같은 목표 수량의 원시 단위에서의 예상 손실을 시뮬레이션을 통해 추정하고 해당 추정치의 불확실성을 평가합니다.

반드시 이것이 일반적인 가설 유의성 검정을 배제하지는 않지만 통계적으로 유의미한 결과는 매우 초기 단계 이며 실제 발견으로 향하는 중개 단계 이며 연구자들이 그 결과로 훨씬 더 많은 것을 할 것을 기대해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.