이것이 실제로 p- 값이 작동하는 방법입니까? 연간 백만 개의 논문이 순수한 무작위성에 기초 할 수 있습니까?


98

통계를 처음 접했고 포함한 기본 사항을 이해하는 법을 배우고 있습니다. 그러나 지금 내 마음에는 큰 물음표가 있으며, 나는 내 이해가 잘못되기를 바랍니다. 내 생각 과정은 다음과 같습니다.p

전 세계의 모든 연구가 "무한 원숭이 정리"의 원숭이와 다소 같지 않습니까? 세계에는 23887 개의 대학이 있다고 생각하십시오. 각 대학교에 1000 명의 학생이 있다면 매년 2,300 만 명의 학생이 있습니다.

매년 각 학생이 가정 테스트를 사용하여 최소한 한 번의 연구를 수행한다고 가정 해 봅시다 .α=0.05

그렇다고 모든 연구 표본이 무작위 모집단에서 추출 되더라도 그 중 약 5 %가 귀무 가설을 유효하지 않은 것으로 거부한다는 의미는 아닙니다. 와. 생각 해봐 "중요한"결과로 인해 매년 약 백만 건의 논문이 출판되고 있습니다.

이것이 작동하는 방식이라면 무섭습니다. 그것은 우리가 당연하게 여기는 많은 "과학적 진실"이 순수한 무작위성에 기초한다는 것을 의미합니다.

간단한 R 코드 덩어리가 내 이해를 지원하는 것으로 보입니다.

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

성공적인 낚시 에 관한이 기사도 그렇습니다 : 나는 생각 초콜릿으로 수백만을 얼려 체중 감소에 도움을줍니다. 방법은 다음과 같습니다 .p

이것이 정말로 전부입니까? 이것이 "과학"이 작동하는 방식입니까?


31
중요한 문제는 중요도를 찾아야하는 압력으로 인해 실제 널 수에 유의 수준에 곱하는 것보다 훨씬 나쁩니다 (중요한 저널이 중요하지 않은 결과를 발표하지 않거나 심판이 그렇지 않은 논문을 거부 할 경우) 중요한 결과를 얻었고, 중요성을 달성 할 수있는 방법을 찾아야한다는 압력이 있습니다 ... 그리고 우리는 여기서 많은 질문에서 '의미 사냥'탐험을 볼 수 있습니다). 이것은 실제보다 유의미한 수준으로 나타날 수 있습니다.
Glen_b

5
반면에 많은 귀무 가설은 점 귀무이며 실제로는 거의 해당되지 않습니다.
Glen_b

37
과학적 방법을 p- 값과 혼동하지 마십시오. 무엇보다도 과학은 재현성을 주장합니다 . 콜드 퓨전 (cold fusion) 에 관한 논문 이 1989 년에 출판 될 수 있었지만 콜드 퓨전 (cold fusion)은 지난 4 세기 동안 과학적 이론으로 존재하지 않았다. 몇몇 과학자들이 관련 귀무 가설이 실제로 지역에서 작업에 관심이 있음도 참고 사실 . 따라서 "모든 연구 표본이 무작위 집단에서 추출되었다"는 가설은 현실적으로 아무 것도 반영하지 않습니다.
whuber

13
xkcd 젤리 빈 만화에 대한 강제 참조 . 짧은 대답-불행히도 너무 빈번하게 발생하고 있으며 일부 저널은 통계를 공개 출판에 들어가는 "중요한"연구의 양을 줄이기 위해 모든 간행물을 검토하도록 주장하고 있습니다. 이 초기 토론에서
Floris

8
아마도 나는 불만을 얻지 못할 것입니다 ... "우리는 가짜 가설의 95 %를 성공적으로 물리 쳤습니다. 나머지 5 %는 의미있는 효과처럼 보이는 임의의 변동으로 인해 쉽게 패배하지 못했습니다. 다른 95 %. " 이것은 "과학"과 같은 것에 대해 올바른 행동과 같습니다.
Eric Towers

답변:


70

이것은 분명히 유효한 문제이지만 이것은 옳지 않습니다.

1,000,000 개의 연구가 수행 되고 모든 귀무 가설이 참 이면 대략 50,000이 p <0.05에서 유의미한 결과를 나타냅니다. 이것이 바로 p 값의 의미입니다. 그러나 null은 본질적으로 절대적으로 사실이 아닙니다. 그러나 우리가 그것을 "거의 사실"또는 "옳은 것"또는 그와 비슷한 것으로 풀었다해도, 1,000,000 건의 연구는 모두

  • 주민등록번호와 IQ의 관계
  • 발가락의 길이는 출생 상태와 관련이 있습니까?

등등. 무의미한 말.

물론 하나의 문제는 어떤 널이 참인지 알 수 없다는 것입니다. 또 다른 문제는 그의 의견에서 언급 한 @Glen_b-파일 서랍 문제입니다.

이것이 내가 Robert Abelson의 아이디어가 통계에서 주요 주장으로 제시 한 아이디어를 너무 좋아하는 이유 입니다. 즉, 통계적 증거는 왜 사건이 발생했는지에 대한 원칙적인 주장의 일부 여야하며 MAGIC 기준에 따라 판단되어야합니다.

  • 크기 : 효과가 얼마나 큽니까?
  • 조음 : "ifs", "ands"및 "buts"로 가득합니까?
  • 일반성 : 얼마나 광범위하게 적용됩니까?
  • 흥미
  • 신념 : 믿을 수없는 주장에는 많은 증거가 필요합니다

4
"1M 연구가 수행되고 모든 귀무 가설이 참 이더라도 약 50.000은 유형 1 오류를 수행하고 귀무 가설을 잘못 기각 할 것입니까?" 희귀 사건이 발생했거나 h1이 잘못되었습니다. "이 연구의 결과
만보

5
긍정적 인 것이 사실이라면 거짓 긍정 만 얻을 수 있습니다. 모든 소음이있는 40 개의 IV를 선택했다면, 제 1 종 오류가 발생할 가능성이 큽니다. 그러나 일반적으로 우리는 이유 때문에 IV를 선택합니다. 그리고 null은 거짓입니다. null이 false 인 경우 유형 I 오류를 만들 수 없습니다.
Peter Flom

6
글 머리 기호를 포함하여 두 번째 단락을 전혀 이해하지 못합니다. 논쟁을 위해 모든 백만 건의 연구가 특정 상태를 치료하기 위해 약물 화합물을 테스트하고 있다고 가정 해 봅시다. 이러한 각 연구에 대한 귀무 가설은 약물이 상태를 치료하지 않는다는 것입니다. 그렇다면 왜 "필수적으로 엄격하게 사실이 아니어야"하는가? 또한 왜 모든 연구가 ss # 및 IQ와 같은 무의미한 관계에 관한 것이어야한다고 말합니까? 요점을 이해하는 데 도움이되는 추가 설명에 감사드립니다.
Chelonian

11
@PeterFlom의 예를 구체적으로 작성하려면 : SSN의 처음 세 자리 숫자는 신청자의 우편 번호를 인코딩합니다. 각 주마다 인구 통계가 다르고 발가락 크기가 일부 인구 통계 학적 요인 (연령, 인종 등)과 관련이있을 수 있기 때문에 사회 보장 번호와 발가락 크기 (데이터가 충분할 경우) 사이에는 거의 관계가 있습니다.
매트 크라우스

6
@MattKrause 좋은 예입니다. 나는 성별로 손가락 개수를 선호합니다. 모든 남성과 여성을 대상으로 인구 조사를했다면 한 성별의 평균 손가락이 다른 손가락보다 더 많다는 것을 알 수 있습니다. 매우 큰 표본을 채집하지 않고 어느 성별에 더 많은 손가락이 있는지 전혀 모릅니다. 또한 글러브 제조업체로서 글러브 디자인에 손가락 센서스 데이터를 사용할 것이라고 의심합니다.
emory

40

전 세계의 모든 연구가 "무한 원숭이 정리"원숭이와 다를까요?

과학자들은 무한한 원숭이를 좋아하지 않는다는 점을 기억하십시오. 그들의 연구 행동, 특히 실험은 임의의 것이기 때문입니다. 실험은 이전의 많은 연구를 기반으로하는 기계적으로 정보화 된 가설에 근거한 엄청나게 신중하게 조작 된 조작 및 측정입니다. 그들은 어둠 속에서 무작위로 쏜 것이 아닙니다 (또는 타자기의 원숭이 손가락).

세계에는 23887 개의 대학이 있다고 생각하십시오. 각 대학교에 1000 명의 학생이 있다면 매년 2,300 만 명의 학생이 있습니다. 매년, 각 학생은 적어도 하나의 연구를한다고 가정 해 봅시다.

발표 된 연구 결과 의 수에 대한 추정치가 크게 떨어졌습니다. 전 세계에 2,300 만 명의 "대학 학생"(대학 또는 단과 대학도 포함되어있는 학생)이 있는지는 모르지만, 대다수의 학생들이 과학적 연구 결과를 발표하지 않는다는 것을 알고 있습니다. 내 말은, 그들 대부분은 과학 전공이 아니며, 대부분의 과학 전공조차도 연구 결과를 발표하지 않습니다.

매년 많은 과학 간행물에 대한 추정치 (일부 토론 )는 약 1-2 백만입니다.

그렇다고 모든 연구 표본이 무작위 모집단에서 추출 되더라도 그 중 약 5 %가 귀무 가설을 유효하지 않은 것으로 거부한다는 의미는 아닙니다. 와. 생각 해봐 "중요한"결과로 인해 매년 약 백만 건의 논문이 출판되고 있습니다.

모든 출판 된 연구에 유의성이 p = 0.05 값인 통계가있는 것은 아닙니다. 종종 p <0.01 또는 p <0.001과 같은 p 값을 볼 수 있습니다. 물론 "평균"p 값이 백만 종이 넘게 무엇인지 모르겠습니다.

이것이 작동하는 방식이라면 무섭습니다. 그것은 우리가 당연하게 여기는 많은 "과학적 진실"이 순수한 무작위성에 기초한다는 것을 의미합니다.

또한 과학자들은 실제로 p의 0.05에서 "과학적 진실"로 적은 수의 결과를 취해서는 안된다는 것을 명심하십시오 . 근처에도 안. 과학자들은 각각 적절한 통계적 힘, 그럴듯한 메커니즘, 재현성, 효과의 크기 등을 가진 많은 연구를 통합해야하며 어떤 현상이 어떻게 작용하는지 잠정적 모델로 통합해야합니다.

그러나 이것은 거의 모든 과학이 정확하다는 것을 의미합니까? 안 돼 과학자들은 인간이며 편견, 잘못된 연구 방법론 (부적절한 통계적 접근 방법 포함), 사기, 단순한 사람의 실수 및 불운에 빠지게됩니다. 아마도 출판 된 과학의 건강한 부분이 틀린 이유에서 아마도 더 지배적 일 것입니다. p <0.05 규칙보다는 이러한 요소들입니다. 실제로, 추격을 바로 잡고, 당신이 제시 한 것보다 더 "무서운"진술을하자 :

가장 많이 발표 된 연구 결과가 거짓 인 이유


10
Ioannidis가이 질문을 뒷받침하는 엄격한 주장을하고 있다고 말하고 싶습니다. 과학은 여기에 응답하는 낙관론자들뿐만 아니라 생각하는 것처럼 보이지 않습니다. 그리고 많은 출판 된 연구는 결코 복제되지 않습니다. 더욱이, 복제가 시도 될 때, 그 결과는 많은 출판 된 과학이 기본적으로 볼록이라는 Ioannidis 주장을 뒷받침하는 경향이 있습니다.
matt_black

9
입자 물리학에서 발견을 주장하는 p- 값 임계 값이 0.00000057 인 것이 흥미로울 수 있습니다.
David Z

2
그리고 많은 경우에 p 값이 전혀 없습니다. 수학과 이론 물리학은 일반적인 경우입니다.
Davidmh

21

대한 이해 가 올바른 것 같습니다.p

비슷한 문제가 자주 제기됩니다. 귀하의 예에서 계산하기에 합당한 것은 오 탐지에 도달 한 23 mln 중 연구 수뿐만 아니라 잘못된 효과를 얻은 연구의 비율입니다. 이것을 "거짓 발견 률"이라고합니다. 그것은 와 같지 않으며 23 mln 연구에서 널의 비율과 같은 다양한 다른 것들에 의존합니다. 이것은 물론 불가능하지만, 추측 할 수 있습니다. 어떤 사람들은 허위 발견 률이 30 % 이상 이라고 말합니다 .α

예를 들어 David Colquhoun의 2014 논문에 대한 최근 토론 : 잘못된 발견 비율 및 다중 테스트와 혼동 (Colquhoun 2014)을 참조하십시오 . 나는이 "최소한 30 %"추정치에 대해 논쟁 해 왔지만, 일부 연구 분야에서는 잘못된 발견 률이 5 %보다 훨씬 높을 수 있다는 데 동의합니다. 이것은 실제로 걱정입니다.

나는 null이 거의 사실이 아니라고 말하는 것이 여기서 도움이되지 않는다고 생각한다. Andrew Gelman에 의해 도입 된 Type S 및 Type M 오류 는 I / II 오류보다 훨씬 좋지 않습니다.

나는 그것이 의미하는 바는 고립 된 "유의적인"결과를 절대 신뢰해서는 안된다고 생각합니다.

이것은 고 에너지 물리학에서도 매우 엄격한 기준을 가지고 있습니다. 우리는 이론적 예측에 잘 맞기 때문에 to 스 보손의 발견은 부분적으로 믿습니다. 이것은 물론 기존의 유의성 기준이 훨씬 낮고 ( ) 매우 구체적인 이론적 예측이 부족한 일부 다른 분야에서는 훨씬 더 그렇습니다 . α = 0.05α107α=0.05

적어도 내 분야에서 좋은 연구는 고립 된 결과를 보고하지 않습니다 . 이러한 발견은 다른 (적어도 부분적으로 독립적 인) 다른 분석과 몇 가지 다른 독립적 인 실험에 의해 확인되어야합니다. 내 분야에서 가장 좋은 연구를 살펴보면 항상 특정 결과를 함께 보여주는 수많은 실험을 보게됩니다. "누적" 값 (명시 적으로 계산되지 않음)은 매우 낮습니다.pp<0.05p

다르게 말하면, 연구원이 결과를 얻는다면, 그가 더 나아가서 조사해야한다는 것을 의미한다고 생각합니다. 그것이 "과학적 진실"로 간주되어야한다는 것을 의미하지는 않습니다.p<0.05


"누적 p 값"다시 : 개별 p 값을 곱할 수 있습니까, 아니면 효과를 내기 위해 괴물 같은 조합을해야합니까?
Kevin

@Kevin : 개별 곱할 수 있지만 유의 임계 값 를 조정해야합니다 . [0,1]에 균일하게 분포 된 10 개의 랜덤 생각하십시오 (즉, 귀무 가설 하에서 생성됨). 그들의 제품은 대부분 0.05 미만일 것입니다. 그러나 null을 거부하는 것은 말이되지 않습니다. p- 값을 결합하는 Fisher의 방법을 찾으십시오. CrossValidated에도 여기에 많은 스레드가 있습니다. α ppαp
amoeba

17

당신의 관심사는 정확하게 재현성에 관한 과학에서 현재 논의되고있는 많은 관심사입니다. 그러나 실제 상황은 제안한 것보다 조금 더 복잡합니다.

먼저 몇 가지 용어를 설정해 봅시다. 귀무 가설 유의성 검정은 신호 탐지 문제로 이해 될 수 있습니다. 귀무 가설은 참 또는 거짓이며이를 기각 또는 유지하도록 선택할 수 있습니다. 두 가지 결정과 두 가지 가능한 "실제"상태를 조합하면 다음 표를 볼 수 있습니다. 대부분의 사람들은 통계를 처음 배울 때 어느 시점에서 보게됩니다.

여기에 이미지 설명을 입력하십시오

귀무 가설 유의성 검정을 사용하는 과학자들은 올바른 결정의 수를 최대화 (파란색으로 표시)하고 잘못된 결정의 수를 최소화 (빨간색으로 표시)하려고합니다. 실무 과학자들은 또한 일자리를 얻고 경력을 발전시킬 수 있도록 결과를 발표하려고 노력하고 있습니다.

H0


H0

출판 편견

α

p

연구원의 자유도

αα. 충분히 많은 의심스러운 연구 관행이있는 경우, 명목 비율이 .05로 설정되어 있어도 오 탐율은 .60까지 높아질 수 있습니다 ( Simmons, Nelson, & Simonsohn, 2011 ).

연구자 자유도 (때때로 의심스러운 연구 관행; Martinson, Anderson, & de Vries, 2005 )를 부적절하게 사용하는 것은 데이터를 구성하는 것과 같지 않다는 점에 유의해야합니다 . 장비가 고장 나거나 다른 이유로 인해 특이 치를 제외하는 것이 올바른 경우도 있습니다. 핵심 문제는 연구원의 자유도가 존재하는 경우 분석 과정에서 내려진 결정이 종종 데이터가 어떻게 나오는지 에 달려 있다는 것입니다 ( Gelman & Loken, 2014).), 해당 연구원이이 사실을 알지 못하는 경우에도 마찬가지입니다. 연구원이 연구자 자유도 (의식적 또는 무의식적)를 사용하여 중요한 결과의 확률을 높이는 한 (아마도 중요한 결과가 더 "게시 가능"하기 때문에) 연구자 자유도의 존재는 출판 편견과 같은 방식으로


위의 논의에서 중요한 경고는 과학 논문 (적어도 나의 분야 인 심리학)은 단일 결과로 구성되는 경우가 거의 없다는 것입니다. 여러 연구가 더 일반적이며, 각 연구에는 여러 번의 테스트가 필요합니다. 더 큰 논쟁을 제기하고 제시된 증거에 대한 대체 설명을 배제하는 것이 강조됩니다. 그러나 결과의 선택적 표현 (또는 연구자 자유도의 존재)은 단일 결과처럼 쉽게 일련의 결과에서 편향을 유발할 수 있습니다. 다중 연구 논문에 제시된 결과는 이러한 연구의 모든 예측이 모두 사실이더라도 예상보다 훨씬 깨끗하고 강하다는 증거가 있습니다 ( Francis, 2013 ).


결론

기본적으로 귀무 가설 유의성 검정이 잘못 될 수 있다는 직감에 동의합니다. 그러나, 나는 높은 비율의 오탐 (false positive)을 생성하는 진정한 범인은 출판 편견과 연구자 자유도의 존재와 같은 과정이라고 주장한다. 실제로 많은 과학자들이 이러한 문제를 잘 알고 있으며 과학적 재현성을 향상시키는 것은 현재 활발한 논의 주제입니다 (예 : Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ). 그래서 당신은 당신의 우려와 함께 좋은 회사에 있지만, 또한 신중한 낙관론에 대한 이유도 있다고 생각합니다.


참고 문헌

RJ, Stern, JM, & Simes (1997). 출판 편향 : 임상 연구 프로젝트에 대한 코호트 연구에서 지연된 출판의 증거. BMJ, 315 (7109), 640-645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E.,… Williamson, PR (2008). 연구 출판 편향 및 결과보고 편견의 경험적 증거에 대한 체계적인 검토. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). 파일 드로어 문제점 및 널 결과에 대한 허용 오차. 심리 게시판, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). 거짓 양성 심리학 : 데이터 수집 및 분석에 공개되지 않은 유연성으로 중요한 것을 제시 할 수 있습니다. 심리 과학, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS, & de Vries, R. (2005). 과학자들이 잘못 행동합니다. 자연, 435, 737–738. http://doi.org/10.1038/435737a

Gelman, A. & Loken, E. (2014). 과학의 통계 위기. 미국 과학자, 102, 460-465.

Francis, G. (2013). 복제, 통계적 일관성 및 게시 편향 수학적 심리학 저널, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Y. Nosek, BA, & Bar-Anan, Y. (2012). 과학적 유토피아 : I. 과학적 의사 소통 열기. 심리적 조사, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR, & Motyl, M. (2012). 과학적 유토피아 : II. 출판 가능성보다 진실을 장려하기 위해 인센티브 및 관행을 재구성합니다. 심리학의 관점, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058


1
+1. 좋은 링크 모음. 다음은 "연구자 자유도"섹션에 매우 관련성 높은 논문 입니다. 분기 경로 정원 : "낚시 탐험"또는 "p- 해킹"이없고 연구 가설이 있어도 여러 비교가 문제가 될 수있는 이유는 무엇입니까? Andrew Gelman과 Eric Loken (2013)에 의해 미리 포지셔닝되었습니다.
amoeba

흥미로운 참조에 감사드립니다. 특히 Gelman and Loken (2013)은 연구원의 자유도를 활용하는 것이 의식적인 과정 일 필요가 없다는 점을 좋아합니다. 해당 논문을 포함하도록 답변을 편집했습니다.
패트릭 S. Forscher

미국 과학자에서 Gelman & Loken (2014)의 출판 된 버전을 찾았습니다.
패트릭 S. Forscher

10

이 질문에서 제기 된 중요한 문제에 대한 실질적인 점검은 "과학적 진실"이 개별적인 고립 된 간행물에 근거하지 않는다는 것입니다. 결과가 충분히 흥미 롭다면 다른 과학자들이 결과의 의미를 추구하도록 자극 할 것입니다. 그 일은 원래의 발견을 확인하거나 반박하는 경향이 있습니다. 개별 연구에서 실제 귀무 가설을 기각 할 확률은 1/20 일 수 있지만 1/400 만 두 번 연속 두 번 수행 할 수 있습니다.

만약 과학자들이 "의미"를 발견하고 결과를 발표 할 때까지 실험을 반복한다면 문제는 OP가 제안한 것만 큼 클 수있다. 그러나 그것은 적어도 약 50 년의 생의학 연구 경험에서 과학이 작동하는 방식이 아닙니다. 더욱이, 간행물은 단일 "유의 한"실험에 대해서는 거의 없지만 오히려 광범위하고 실질적인 가설에 대한지지를 제공하는 일련의 상호 관련 실험 (각각 자체적으로 "유의 한"이어야 함)을 기반으로합니다.

훨씬 더 큰 문제는 자신의 가설에 너무 헌신 한 과학자들로부터 비롯됩니다. 그런 다음 개별 실험의 의미를 해석하여 가설을 뒷받침하거나 모호한 데이터 편집 (예 : 이상 치를 제거하는 등) 또는 데이터를 구성하는 데 도움이 될 수 있습니다.

그러나 과학은 상아탑에 숨어있는 미친 과학자들에 대한 신화와 상관없이 매우 사회적 과정입니다. 자신의 관심사를 추구하는 수천 명의 과학자들 사이에서주고받은 것은 다른 사람들의 연구에서 배운 것을 바탕으로 오탐으로부터의 궁극적 인 제도적 보호입니다. 잘못된 결과는 때때로 수년간 지속될 수 있지만 문제가 충분히 중요한 경우 프로세스는 결국 잘못된 결론을 식별합니다.


6
1/400040

2
23M 연구에서 우리는 여전히 5.000 결과가 잡음으로 인해 귀무 가설을 기각하는지 여부를 알 수 없었습니다. 그것은 또한 규모의 문제이기도합니다. 수백만 건의 연구가 끝나면 유형 1 오류가 일반적입니다.
n_mu_sigma

3
23,000,000 건의 연구 중에서 5000 건의 잘못된 결론 만 있었다면, 나는 이것을 드문 일 이라고 부를 것입니다 !
whuber

3
거의 50 년 동안 과학을 수행하고 다른 과학자들을 알고 있었기 때문에 나는 그들이 "의미"를 달성 할 때까지 실험을 반복 한 사람을 생각할 수 없었습니다. @whuber가 제기 한 이론적 가능성은 내 경험상 큰 실질적인 문제가 아닙니다. 훨씬 더 큰 실질적인 문제는 선입견에 맞지 않는 "이상 값"을 버리거나 "데이터"를 시작하여 간접적으로 데이터를 작성하는 것입니다. 내가 본 행동은 p- 값 을 조정하여 해결할 수 없습니다 .
EdM

3
@EdM "개인 연구에서 실제 귀무 가설을 기각 할 확률은 1/20 일 수 있지만 1/4000 회는 두 번 연속으로 두 번 할 수 있습니다." 두 번째 숫자는 어떻게 얻었습니까?
Aksakal

5

그냥 토론에 추가, 여기 사람들은 일반적으로 p 값이 오해하는 방법에 대한 흥미로운 게시물 및 후속 논의이다.

어떤 경우에도 유지해야 할 것은 p- 값은 주어진 가설을 기각 할 때 증거의 강도에 대한 측정치 일뿐입니다. p- 값은 확실히 "진정한"값보다 높고 우연한 결과 인 것보다 어려운 임계 값은 아닙니다. 위에서 언급 한 게시물에서 설명한 바와 같이 :

결과는 실제 효과와 기회의 조합입니다.


아마도 이것은 p- 값의 이해에 기여할 것입니다 : stats.stackexchange.com/questions/166323/…

4

다른 답변에서 지적했듯이 귀무 가설이 배제 된 긍정적 인 결과를 선택적으로 고려하려는 경우에만 문제가 발생합니다. 그렇기 때문에 과학자들은 이전에 발표 된 연구 결과를 고려하여 리뷰 논문을 작성하고이를 바탕으로 주제에 대한 이해를 높이려고 노력합니다. 그러나 여전히 소위 "발표 편향"으로 인한 문제가 남아있다. 즉, 과학자들은 부정적인 결과보다는 긍정적 인 결과에 관한 기사를 작성할 가능성이 높으며, 부정적인 결과에 관한 논문은 긍정적 인 결과에 대한 논문보다 출판이 거부 될 가능성이 높습니다.

특히 통계 테스트가 매우 중요한 분야에서는 이것이 큰 문제가 될 것이므로 의학 분야는 악명 높은 예입니다. 그렇기 때문에 임상 시험을 실시하기 전에 의무적으로 등록해야하는 이유가 여기에 있습니다 (예 : 여기 ). 따라서 시운전이 시작되기 전에 설정, 통계 분석 수행 방법 등을 설명해야합니다. 주요 의료 저널은 등록되지 않은 곳에서보고 된 재판이 있으면 논문 출판을 거부 할 것입니다.

불행히도이 조치에도 불구하고 시스템 이 제대로 작동하지 않습니다 .


아마도 이것은 p- 값의 이해에 기여할 것입니다 : stats.stackexchange.com/questions/166323/…

3

이것은 과학적 방법에 관한 매우 중요한 사실에 가깝습니다. 위조 가능성을 강조합니다. 오늘날 가장 인기있는 과학 철학은 Karl Popper의 위조 가능성 개념을 모퉁잇돌 로합니다.

기본 과학 과정은 다음과 같습니다.

  • 누구나 원하는 이론을 언제든지 주장 할 수 있습니다. 과학은 "거짓이 될만한"이론을 인정할 것이다. 그 말의 가장 문자 그대로의 의미는 다른 사람이 주장을 좋아하지 않으면 그 주장을 반증하기 위해 자원을 자유롭게 사용할 수 있다는 것입니다. 아가일 양말이 암을 치료한다고 생각하지 않는다면, 자신의 의료 병동을 사용하여이를 반증하는 것이 자유 롭습니다.

  • 이 입장에 대한 막대는 엄청나게 낮기 때문에 문화 단체로서의 "과학"은 자신의 이론을 위조하기 위해 "좋은 노력"을하기 전까지는 어떤 아이디어도 실제로 접하지 않는 것이 일반적입니다.

  • 아이디어의 수용은 단계적으로 진행되는 경향이 있습니다. 하나의 연구와 다소 낮은 p- 값으로 저널 기사로 개념을 가져올 수 있습니다. 그것이 당신을 사는 것은 홍보와 신뢰성입니다. 과학에 엔지니어링 응용 프로그램이있는 경우와 같이 누군가 아이디어에 관심이있는 경우이를 사용하려고 할 수 있습니다. 당시에는 추가 위조 라운드에 자금을 지원할 가능성이 높습니다.

  • 이 과정은 항상 같은 태도로 진행됩니다. 당신이 원하는 것을 믿지만 과학이라고 부르려면 나중에 그것을 반증 할 수 있어야합니다.

진입을위한이 낮은 막대는 그렇게 혁신적입니다. 그렇습니다. 이론적으로 "잘못된"저널 기사가 많이 있습니다. 그러나 핵심은 출판 된 모든 기사가 이론상으로 반박 할 수 있다는 점입니다. 따라서 어느 시점에서나 누군가가 기사 를 테스트하기 위해 돈을 쓸 수 있습니다.

이것이 핵심입니다. 저널에는 합리적인 p- 테스트를 통과 한 것이 포함되어있을뿐만 아니라 결과가 거짓으로 판명 될 경우 다른 사람이 해체 할 수있는 키도 포함되어 있습니다.


1
이것은 매우 이상적입니다. 어떤 사람들은 잘못된 논문이 너무 많으면 문헌에서 신호 대 잡음비가 너무 낮아 과학 과정을 심각하게 늦추거나 잘못 인도 할 수 있다고 우려합니다.
amoeba

1
@amoeba 당신은 좋은 지적을 제기합니다. 나는 소음에서 길을 잃지 않기 때문에 이상적인 사례를 포착하고 싶었습니다. 그 외에도, 문헌에서 SNR의 문제는 유효한 질문이지만, 적어도 당연한 것이어야합니다. 이미 좋은 저널과 가난한 저널의 개념이 있으므로 균형 조정이 한동안 진행되었다는 힌트가 있습니다.
Cort Ammon

과학 철학에 대한 이러한 이해는 수십 년 전부터 끝난 것 같습니다. 포퍼 반증은 과학이 어떻게 일어나는지에 대한 일반적인 도시 신화 라는 의미에서 "인기"입니다 .
EnergyNumbers

@EnergyNumbers 새로운 사고 방식을 알려줄 수 있습니까? 철학 SE는 당신과 매우 다른 의견을 가지고 있습니다. 저기 질문의 역사를 살펴보면, Popperian의 위조 가능성은 자신의 목소리를 말한 대다수의 사람들에게 과학 결정적인 특징입니다. 나는 새로운 사고 방식을 배우고 그것을저기서 가져오고 싶습니다!
Cort Ammon

새로운? 쿤은 수십 년 전에 포퍼를 반박했다. philosophy.se에 대한 Popperian 게시물이 없다면 1950 년대에 그대로 두십시오. 자신을 업데이트하고 싶다면 과학 철학에 관한 21 세기 학부 입문서가 시작되어야합니다.
EnergyNumbers

1

이것이 "과학"이 작동하는 방식입니까?

그것이 많은 사회 과학이 작동하는 방식입니다. 물리 과학은 그리 많지 않습니다. 이것을 생각하십시오 : 당신은 컴퓨터에 질문을 입력했습니다. 사람들은 물리학, 화학 및 기타 물리 과학 분야의 지식을 사용하여 컴퓨터라는 복잡한 짐승을 만들 수있었습니다. 만약 당신이 묘사 한대로 상황이 나쁘다면, 어떤 전자 장치도 작동하지 않을 것입니다. 또는 전자의 질량과 같은 것을 생각하십시오. 그들은 컴퓨터에서 수십억 개의 논리 게이트를 통과하며 컴퓨터는 여전히 몇 년 동안 작동하고 작동합니다.

업데이트 : 내가받은 투표에 응답하기 위해 몇 가지 예를 들도록 영감을 받았습니다.

첫 번째는 물리학 : Bystritsky, VM 등입니다. "지 중수소 지르코늄 타겟을 사용하여 초저 에너지 영역에서 천체 물리적 S 인자 및 p (d, γ) 3He 반응의 단면 측정 ." 입자와 핵 문자의 물리학 10.7 (2013) : 717-722.

0.237±0.061

다음 예는 ... 심리학 : Paustian-Underdahl, Samantha C., Lisa Slattery Walker 및 David J. Woehr. " 리더십 효과의 성별과 인식 : 상황에 맞는 중재자의 메타 분석 ." 응용 심리 학회지, 2014, Vol. 99, 6 번, 1129 – 1145.

χ2

이제 논문의 일부 테이블을보고 어떤 논문이 있는지를 추측하십시오.

여기에 이미지 설명을 입력하십시오 여기에 이미지 설명을 입력하십시오

한 가지 경우에 "멋진"통계가 필요하고 다른 경우에는 그렇지 않은 이유에 대한 답입니다. 좋은 데이터가 있으면 표준 오류 이상의 통계가 필요하지 않습니다.

UPDATE2 : @ PatrickS.Forscher는 주석에서 흥미로운 진술을했습니다.

또한 사회 과학 이론이 물리 이론보다 "부드럽다"(형식이 적음)는 것이 사실입니다.

동의하지 않아야합니다. 경제 및 금융에서 이론은 전혀 "부드럽 지"않다. 이 분야에서 논문을 무작위로 조회하여 다음과 같은 것을 얻을 수 있습니다.

여기에 이미지 설명을 입력하십시오

등등.

Schervish, Mark J., Teddy Seidenfeld 및 Joseph B. Kadane 출신입니다. " 유틸리티 이론의 확장과 쌍별 비교의 일부 한계 ." (2003). 이것이 당신에게 부드럽게 보입니까?

나는 당신의 이론이 좋지 않고 데이터가 엉뚱한 경우 가장 어려운 수학을 사용하고 여전히 엉뚱한 결과를 얻을 수 있다고 내 요점을 다시 언급하고 있습니다.

이 논문에서 그들은 행복과 만족과 같은 개념 인 유틸리티에 대해 이야기하고 있습니다. 집을 갖는 것과 치즈 버거를 먹는 것의 유용성은 무엇입니까? 아마도이 기능이 있는데, "eat cheeseburger"또는 "자택에서 살기"를 연결하면이 기능은 일부 단위로 답을 뱉어 낼 것입니다. 폰 이노 만 (Bon Neuman)에게 감사합니다.


1
+1 왜 이것이 두 번 다운 다운되었는지 확실하지 않습니다. 당신은 기본적으로 물리학의 발견은 실험으로 테스트 될 수 있으며, 사회 과학에서 대부분의 "발견"은 할 수 없으며, 그렇게함으로써 그들이 많은 언론의 주목을받는 것을 막을 수는 없습니다.
Flounderer

6
대부분의 실험에는 궁극적으로 일종의 통계 테스트가 포함되지만 여전히 p- 값 낚시와 같은 유형 1 오류 및 오작동의 여지가 남아 있습니다. 나는 사회 과학을 칭찬하는 것이 약간 어마 어마하다고 생각합니다.
Kenji

4
@GuilhermeKenjiChihaya가 말하는 것을 약간 수정하기 위해, 오차의 표준 편차는 아마도 물리 실험에서 통계 테스트를 수행하는 데 사용될 수 있습니다. 아마도이 통계적 테스트는 저자가 오류 막대를 사용하여 그래프를 볼 때 도달하는 것과 같은 결론에 도달했을 것입니다. 물리학 논문의 주요 차이점은 실험의 기본 소음 량이며, p- 값 사용의 기본 논리가 유효하거나 유효하지 않습니다.
Patrick S. Forscher

3
또한 @Flounderer, 사회 과학자들이 항상 "실험"(즉, 단위를 조건에 무작위 화)하기 때문에 내가 익숙하지 않은 의미에서 "실험"이라는 용어를 사용하는 것 같습니다. 물리 과학 실험에서와 같은 수준으로 사회 과학 실험을 통제하기가 어렵다는 것은 사실입니다. 또한 사회 과학 이론이 물리 이론보다 "부드럽다"(형식이 적음)는 것이 사실입니다. 그러나 이러한 요소는 주어진 연구가 "실험"인지 여부와 무관합니다.
Patrick S. Forscher

2
@Aksakal -1에 동의하지 않는 동안, 나는 또한 당신의 사회 과학 비평가에 동의하지 않습니다. 유틸리티 이론이 엄격 경제 / 통계 / 수학 개념이기 때문에 경제적 종이 귀하의 예는 사회 과학자가 매일하는 일의 좋은 예가 아니다 (그래서 이미 가지고 거기에 수학을)하고 예를 들어 심리학 이론과 유사하지 나는 실험적으로 테스트되었지만 ... 나는 종종 과학을 포함한 많은 연구 분야에서 통계가 느슨하게 사용되는 경우에 동의합니다.
Tim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.