심리학 저널은 p- 값과 신뢰 구간을 금지했습니다. 실제로 사용을 중단하는 것이 현명한가?


73

2015 년 2 월 25 일, Basic and Applied Social Psychology 저널 은 미래의 모든 논문에서 p- 값 과 신뢰 구간을 금지 하는 사설 을 발표했습니다.p

특히, 그들은 (포맷과 강조는 내 것입니다) :

  • [...] 출판 전에, 저자는 NHSTP의 모든 흔적을 제거해야한다 [널 가설 유의성 테스트 절차] ( , t- 값 , F- 값 ,``유의 한 ''차이 또는 그 부족에 대한 진술 , 등등).ptF

  • NHSTP가 귀무 가설의 확률을 제공하지 않는 방법과 유사하며,이를 거부하기위한 강력한 사례를 제공해야하지만 신뢰 구간은 관심 모집단 매개 변수가 명시된 범위 내에있을 가능성이 높다는 결론을 내릴 수있는 강력한 사례를 제공하지 않습니다. 간격. 따라서 신뢰 구간도 BASP에서 금지됩니다.

  • [...] 베이지안 절차와 관련하여, 우리는 사례별로 판단 할 권리를 보유하므로 베이지안 절차는 BASP에서 요구되거나 금지되지 않습니다.

  • [...] 추론 적 통계 절차가 필요합니까? - 아니요 [...] 그러나 BASP에는 효과 크기를 포함하여 강력한 설명 통계가 필요합니다.

pp

p

또는 @ whuber가 제안한 것처럼, 이 접근법은 일반적으로 정량적 연구의 패러다임으로 옹호되어야합니까? 그렇지 않다면 왜 그렇지 않습니까?

추신. 내 질문 은 금지 자체에 관한 것이 아닙니다 . 제안 된 접근 방식에 관한 것입니다. 나는 또한 잦은 반대 대 베이지안 추론에 대해 묻지 않습니다. 편집은 베이지안 방법에 대해서도 매우 부정적입니다. 따라서 통계를 사용하지 않고 통계를 전혀 사용하지 않는 것이 중요합니다.


다른 토론 : reddit , Gelman .


14
선형 회귀 모델에는 p- 값과 신뢰 구간간에 일대일 매핑이 있으므로 p- 값을 금지하지만 신뢰 구간을 유지하는 것이 큰 의미가있는 이유는 알 수 없습니다. 그러나 p- 값과 신뢰 구간을 모두 금지하면 결과 설명에 차이가 생길 수 있습니다. 표준 오류보고가 동일한지를 허용하는지 궁금합니다.
Richard Hardy

7
이 상태에서 물건을 금지하는 것은 모든 것이 잘못 사용될 수 있습니다. 나는 p- 값의 팬이 아니지만 이것은 문제에 대한 순진한 접근법으로 보입니다. 한 가지 적절한 물건을 사용하도록 장려하지만, 물건을 금지하는 것은 문제를 처리하는 적절한 방법처럼 들리지 않습니다 ...
Tim

12
좋은 생각이야 통계를 사용하면이 필드의 비과학적인 특성이 숨겨집니다.
Aksakal

4
이것은 p 값의 오용에 대한 좌절에 대한 완전한 과잉 반응처럼 보입니다. 나는 일반적으로 P 값보다는 p 값의 오용을 금지하는 것이 훨씬 행복 할 것입니다.
TrynnaDoStat

8
목록의 네 번째 항목은 추정 필요 가 없지만 추정치가 필요 하지 않다는 것을 나타냅니다. 그러나 효과 크기는 단지 설명적인 통계로보고됩니다. 그럼에도 불구하고, 편집의 몇 줄은 "우리는 많은 심리학 연구에서 일반적인 것보다 더 큰 샘플 크기의 사용을 권장합니다. 왜냐하면 샘플 크기가 증가함에 따라 기술 통계량은 점점 안정적이되고 샘플링 오류는 문제가되지 않기 때문입니다." 나는 이러한 안정성 개념을 공식화하고 샘플링 오류의 영향을 정량적으로 설명하는 연구를 요구하는 2016 년 편집의 글을 기대합니다.)
Scortchi

답변:


23

OP가 링크 된 현재 2015 년 편집의 첫 문장은 다음과 같습니다.

기본 및 응용 사회 심리학 (BASP) 2014 광고 문안 은 귀무 가설 유의성 테스트 절차 (NHSTP)가 유효하지 않다는 것을 강조했습니다 ...

(내 강조)

다시 말해, 편집자들에게는 이미 "가설 가설 검정"이 유효하지 않다는 것이 이미 입증 된 과학적 사실이며, 2014 년 사설은 그렇게 강조한 반면, 현재 2015 년 사설은이 사실을 구현합니다.

NHSTP의 오용 (심지어 악의적 일지라도)은 실제로 잘 논의되고 문서화됩니다. 그리고 인류 역사상 "금지 된 것들"은 들어 본 적이 없다. 왜냐하면 모든 말과 행동이 그것들을 잘 사용하는 것 이상으로 잘못 사용되었다는 것이 밝혀 졌기 때문이다 (그러나 통계적으로 테스트해서는 안 되는가?). 이익보다 오히려 손실을 초래하는 평균 (추론 통계)을 줄이려면 "두 번째로 좋은"솔루션이 될 수 있으므로 향후 추론 될 것이라고 예측 (추론 통계) 할 수 있습니다.

그러나 위의 첫 번째 문장의 문구 뒤에 드러난 열정은 이것을 제물 보다는 도둑질 경향이있는 손을 자르 겠다는 냉정한 결정이 아니라 열렬한 접근 방식 으로 정확하게 보이게 합니다. 위의 인용문에 언급 된 1 년 된 편집 문 (DOI : 10.1080 / 01973533.2014.865505)을 읽는다면, 이는 새로운 편집자가 저널 정책을 다시 가져 오는 것의 일부일뿐입니다.

광고 문안을 아래로 스크롤하면

반대로, 우리는 p <.05 bar가 통과하기 너무 쉽고 때로는 품질이 낮은 연구에 대한 변명으로 작용한다고 생각합니다.

따라서 그들의 학문과 관련된 결론은 귀무 가설이 "너무 자주"거부되고, 따라서 의심되는 결과가 가짜 통계적 중요성을 얻을 수 있다는 것입니다. 이것은 첫 번째 문장에서 "유효하지 않은"단어와 같은 주장 이 아닙니다 .

따라서이 질문에 답하기 위해 저널 편집자들에게는 그들의 결정이 현명 할뿐만 아니라 이미 구현이 늦었다는 것이 명백합니다. 그들은 통계의 어떤 부분이 해로워 지는지를 잘라내어 유익한 부분-그들은 여기에 "동등한"것으로 대체 해야 것이 있다고 생각하지 않는 것 같습니다 .

인식 론적으로, 이것은 사회 과학 학자들이 정량적 방법을 사용하여 자신의 징계를 방법과 결과에 더 객관적으로 만들려는 시도에서 부분적으로 철회하는 사례입니다. , 시도는 "좋은 것보다 더 나쁘다". 나는 이것이 매우 중요한 문제이며, 원칙적으로 일어날 수있는 일이며, "합리적 의심을 넘어서"이를 입증하고 실제로 당신의 훈련을 돕기 위해 수년간의 노력이 필요할 것이라고 말하고 싶습니다. 그러나 출판 된 하나 또는 두 개의 사설과 논문은 아마도 (추론 적 통계) 아마도 내전을 발화시킬 것입니다.

2015 년 편집의 마지막 문장은 다음과 같습니다.

우리는 NHSTP 금지가 NHSTP 사고의 체계화 된 구조에서 저자를 해방 시켜서 창의적 사고에 대한 중요한 장애물을 제거함으로써 제출 된 원고의 품질을 향상시키는 효과가 있기를 희망합니다. NHSTP는 수십 년 동안 심리학을 지배 해 왔습니다. 우리는 첫 번째 NHSTP 금지를 제정함으로써 심리학이 NHSTP의 버팀목이 필요하지 않으며 다른 저널이 그에 따른다는 것을 증명하기를 희망합니다.


5
그렇습니다 ... 우리는이 사이트에 혀로 뺨이나 딱딱한 답글을 쓸 때주의해야합니다 : (완전히) 오해 될 수 있습니다!
whuber

4
@ naught101 ... 그것은 외교적이지 않을 것입니다. NHSTP가 정죄되는 방식에 따라 심리학자들은 자신들이 수십 년 동안 그것을 사용했다는 사실을 아끼지 않습니다. 그것이 당신이 제안한 방식으로 쓰여졌다면, 그것은 과학자로서 동료들에 대한 직접적인 공격처럼 보일 것입니다. 이제 본문은 본질적으로 선의로 가득 찬 심리학자들이 불행히도이 접근 방식을 사용하는 데있어서 잘못되었다는 것을 암시합니다. 제정?
Alecos Papadopoulos

4
나쁜 노동자는 그의 도구를 비난합니다.
naught101

3
@BrianDHall 본인은 문제에 대한 특정 저자의 작업보다는 NHSTP (이 사이트 포함)와 관련된 문제에 대해보다 권위있는 자료를 찾아 보는 것이 좋습니다. 이 문제는 어렵고 미묘합니다. 여러분의 의견에서 "수락"과 "어설 션"에 대한 의미를 먼저 논의해야합니다.
Alecos Papadopoulos

6
@ naught101 : 작업자가 전기 톱을 올바르게 처리 할 수없는 경우 도구를 비난하지 않을 수 있습니다. 그러나 당신은 여전히 ​​더 많은 해를 입히지 않기 위해 노동자에게서 그것을 빼앗아 갈 것입니다. ;-)
nikie

19

PP<0.05

신뢰 구간의 금지도 선상에 있지만 다른 사람들이 언급 한 이유는 아닙니다. 신뢰 구간은 베이지안을 신뢰할 수있는 구간 (적절한 비 정보 사전에 대해)으로 잘못 해석 한 경우에만 유용합니다. 그러나 여전히 유용합니다. 그들의 정확한 잦은 해석이 혼란으로 이어진다는 사실은 우리가 "닷지에서 나와 베이지안이나 가능성 학교에 가야 함"을 암시합니다. 그러나 오래된 신뢰 한계를 잘못 해석하면 유용한 결과를 얻을 수 있습니다.

저널의 편집자들이 베이지안 통계를 오해하고 순수한 가능성 추정의 존재를 모르는 것은 부끄러운 일입니다. 그들이 찾고있는 것은 약간 회의적인 사전을 사용하여 베이지안 후 분포에 의해 쉽게 제공 될 수 있습니다.


n3±0.53±1p<0.05

4
표준 오차는 (대칭 분포를 가정하기 때문에) 지나치게 단순화되었지만 평균 제곱 오차와 같은 유용한 정밀도 측정 방법이 있다고 생각합니다. 확률 범위를 구상하지 않고 근 평균 제곱 오차를 기준으로 정밀 구간을 생각할 수 있습니다. 따라서이 토론 중 어느 것이 표준 오류의 강조를 암시하는지 알 수 없습니다. 그리고 CL 사용을 중단 할 것을 제안하지 않았습니다. 그러나 CL의 어려움은 주로 확률 해석 시도에서 비롯됩니다.
Frank Harrell

흠. 흥미 롭군 나에게 표준 오류에서 CI (상수 요인!)까지의 작은 단계가있는 것처럼 보이며, 다르게 처리하는 것이 이상 할 것입니다. 그러나 그것은 아마도 의미 론적 포인트 일 것이다. 사람들 표준 오류와 CI에 대해 다르게 생각 하고 CI에 대해 더 혼란스러워하는 경향이 있습니다. 이 특정 저널 정책이 표준 오류에 대해 무엇을 말하는지 궁금합니다 (광고 문안에서 명시 적으로 언급하지는 않음).
amoeba

2
대칭 상황에서 표준 오차는 신뢰 구간의 구성 요소입니다. 그러나 많은 경우에 올바른 신뢰 구간은 비대칭이므로 표준 오류를 기반으로 할 수 없습니다. 부트 스트랩 및 역변환의 일부 유형은이 유형의 두 가지 접근 방식입니다. 프로파일 가능성 신뢰 구간이 특히 중요합니다.
Frank Harrell

@ 프랭크 하렐 (Frank Harrell)- "순수한 추론"에 관해서는, 데이터의 임계 값으로 꾸미지 않고 데이터의 가능성을 요약하는 데 중점을 두는 것이 편집자가 파악하고있는 대답으로 보인다는 데 동의합니다. AWF Edwards의 저서 "Likelihood"(1972)는 편집자의 관심사에 대해 다음과 같이 직접 언급합니다. "우리는 이후 장까지 이러한 인수에 대한 고려 (예 : 중요도 테스트)를 연기 할 수 있으며 Fisher의 가능성에 대한 개념에 따라 절차에 대한 설명을 즉시 전달할 수 있습니다. "중요도 테스트에서 평준화 될 수있는 이러한 객체들 중 어느 것에도 개방되지 않습니다."
John Mark

13

나는이 접근법이 사회 심리학이 이전에 출판 된 많은 '중요한 발견'을 복제 할 수없는 문제를 해결하려는 시도라고 생각한다.

단점은 다음과 같습니다.

  1. 그것은 가짜 효과를 일으키는 많은 요소를 다루지 않는다는 것입니다. 예 :

    • A) 사람들은 효과 크기가 관심을 가질만큼 충분히 클 때 여전히 데이터를 들여다보고 연구를 중단 할 수 있습니다.

    • B) 큰 효과 크기는 여전히 소급 검정력 평가에서 큰 검정력을 갖는 것으로 보인다.

    • C) 사람들은 여전히 ​​흥미롭고 큰 효과 (실험에서 많은 가설을 테스트 한 다음 나타나는 것을보고 함)를 위해 낚시를합니다.

    • D) 예상치 못한 이상한 효과가 예상되는 것처럼 척한다.

    이러한 문제를 먼저 해결하기 위해 노력하지 않아야합니까?

  2. 앞으로 나아갈 분야는 과거의 결과를 꽤 끔찍하게 검토 할 것입니다. 다른 연구의 신뢰성을 정량적으로 평가할 방법이 없습니다. 모든 저널이이 접근법을 구현했다면 X가 얼마나 믿을만한 지 X가 확실하지 않을 때 X에 대한 증거가 있다고 발표하는 과학자들과 과학자들이 출판 된 효과를 해석하는 방법에 대해 논쟁하거나 그것이 중요하거나 가치가 있는지에 대해 논쟁하고 있습니다 에 대해 말하다. 이것이 통계를 갖는 것이 아닌가? 숫자를 평가하는 일관된 방법을 제공합니다. 제 생각에,이 새로운 접근법은 그것이 널리 구현된다면 혼란을 야기 할 것입니다.

  3. 이 변경으로 인해 연구원들은 효과 크기가 작은 연구 결과를 제출하도록 장려하지 않으므로 실제로 파일 드로어 효과를 다루지 않습니다 (또는 효과 크기에 관계없이 n이 큰 결과를 게시 할 예정입니까?). 신중하게 설계된 연구의 모든 결과를 발표 한 경우 개별 연구 결과의 신뢰성이 불확실 할 수 있지만 통계 분석을 제공 한 연구에 대한 메타 분석 및 검토는 진실을 식별하는 데 훨씬 더 효과적입니다.


2
@captain_ahab 3 지점과 관련하여, 우리는 편집자의 이전 편집 (2014) 이 "무효"연구 제출을 명시 적으로 장려 했다고 언급해야한다 .
Alecos Papadopoulos 2013

1
필자는 평소보다 더 큰 표본 크기가 필요하다는 점을 제외하고는 출판 기준에 대해 편집에서 의견을 찾을 수없는 것 같습니다 (추론 통계가없는 수용 가능한 n을 식별하는 방법은 분명하지 않습니다). 저에게이 광고 문안은 효과 크기가 무엇인지 신경 쓰지 않는다는 것을 강조하지 않습니다. 그들은 여전히 ​​흥미로운 효과와 흥미로운 이야기를 찾고있을 것 같습니다. 저는 사회 과학 연구에서 더 큰 문제라고 생각합니다 (즉, 흥미로운 효과와 이야기에 대한 사후 검색).
captain_ahab

2
더 나은 해결책으로 보이는 것은 모든 과학자들이 연구를 시작하기 전에 공공 장소에서 연구의 가설, 기본 합리, 힘 및 분석 접근법을 기록해야한다는 것입니다. 그리고 그 연구를 처방 된 방식으로 출판하는 것으로 제한됩니다. 예기치 않은 흥미로운 효과가 발견되면 공개적으로 기록한 다음 해당 효과를 검사하는 새로운 연구를 실행해야합니다. 위양성 (false positive)을 제어하면서 이러한 접근 방식을 통해 과학자들은 새로운 효과를 발표하지 않고도 생산성을 입증 할 수 있습니다.
captain_ahab

7

나는 거의 동일한 주장을 주장 하는 훌륭한 인용문을 보았습니다. 그러나 그것은 종종 빈번한 통계와 가설 검정에 관한 교과서의 첫 단락이기 때문입니다.

저자와 같이 비 통계 학자들은 널리 실험을한다면 좋은 실험을하면 통계가 필요하지 않다. 그들은 옳습니다. [...] 당연히 좋은 실험을하는 것은 어렵다는 것입니다. 대부분의 사람들은 자신이 좋아하는 이론이 아무 것도 수행하지 않는 관찰에 의해 입증되었다고 주장함으로써 자신을 속이는 것을 막기 위해 얻을 수있는 모든 도움이 필요합니다. 그리고 유의성 테스트를 다루는 통계 섹션의 주요 기능은 사람들이 자신을 바보로 만드는 것을 방지하는 것입니다. 이러한 관점에서 유의성 테스트 기능은 사람들이 실험을 게시하지 못하도록하고 장려하지는 않는 것입니다. 이상적으로, 의미 테스트는 인쇄물에 나타나지 않아야하며, 불충분 한 실험을 탐지하기 위해 예비 단계에서 전혀 사용되지 않았으며,

-David Colquhoun , 1971 년 생물 통계학 강의


1
귀하의 게시물은 실제로 답변이 아닌 의견이므로 의견을지지하지 않지만 견적을 공유해 주셔서 감사합니다. 이 구절에는 분명한 오해가 많으며,이를 지적하고 폭파하기 위해서는 많은 공간 (공간을 말하지 않음)이 필요합니다. 한마디로, 이러한 주장에 대한 대응책은 "효율성"입니다. 모든 사람이 시간과 예산을 무제한으로 사용한다면 최소한 "좋은 실험"을 수행 할 수 있습니다. 그러나 자원이 제한적일 때, "최종의 ... 명확한"실험 만 수행하는 것은 바보 일뿐만 아니라 비용도 많이 든다.
whuber

2
귀하의 의견에 감사드립니다, @whuber; 나는 당신이 말하는 것에 동의합니다. 그럼에도 불구하고, 이상적인 실험 데이터가 공식적인 가설 검정을 불필요하게하도록 설득력이 있어야한다고 말하는 것이 매력적이라고 ​​덧붙여 야한다. 이것은 달성하기 어려운 이상이 아닙니다! (P-값이 많이 사용된다) 내 필드에, 나는 최고의 논문 것을 알게 된다 예를 들어 그들은 함께 서로를 지원하는 여러 실험의 순서 제시하기 때문에 : 그들없이 설득 분명히 통계적 우연하지 않을 수 있습니다. 댓글 다시 쓰기 : 댓글이 너무 길어서 CW 답변으로 괜찮다고 생각했습니다.
amoeba

예, 왜 답변으로 게시되어야하는지 알기 때문에 의견으로 인용하기 위해 투표하지 않았습니다 (인용 부호의 마지막 부분을 잘라 버릴 것입니다). 나는 특정한 경우에 이상이 달성 될 수 없다는 것에 동의한다 . 또한 명심하는 것이 이상적이라는 데 동의합니다. 그러나 실험을 설계하는 방법 (전체적으로 자원 할당의 원칙)에 대한 가이드로서, 그것은 끔찍한 실수 일 수 있습니다. 그러나 이것은 "좋은"실험이 통계적 방법을 필요로하지 않을 것이라는 제안은 까다로운 시험에도 견딜 수없는 것이다.
whuber

1
아마도 물질이 특정 생리적 반응을 자극한다고 제안하는 초기 유의성 테스트를 말하는 것과 같은 한 가지 독서 방법은 용량 반응 곡선에 대한 여러 종류의 억제제의 효과에 대한 연구를 발표 할 때 더 이상 관련이 없습니다.
Scortchi
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.