40,000 개의 신경 과학 논문이 잘못되었을 수 있습니다


67

나는 이코노미스트 에서이 논문이 "40,000 개의 출판 된 [fMRI] 연구와 같은 것"에 대한 의심을 불러 일으키는 논문 에 대해 보았다 . 그들은 오류는 "잘못된 통계적 가정"때문이라고 말한다. 나는 논문을 읽고 그것이 여러 비교 수정에 문제가 있다는 것을 알지만 fMRI 전문가가 아니며 따르기가 어렵다는 것을 알았습니다.

저자가 말한 잘못된 가정은 무엇인가 ? 왜 그런 가정이 이루어 집니까? 이러한 가정을 만드는 방법은 무엇입니까?

엔벨로프 계산에 따르면 40,000 개의 fMRI 논문은 자금이 10 억 달러가 넘습니다 (학년 학생 급여, 운영 비용 등).


[1] Eklund et al., Cluster failure : 공간 범위에 대한 fMRI 추론이 위양성 비율을 부풀린 이유, PNAS 2016


17
죽은 연어의 fMRI에 관한 논문도 참조하십시오. wired.com/2009/09/fmrisalmon
복원 모니카

1
그것은 특히 신경 병리학 연구에서 정말 좋은 선입니다. 왜냐하면 당신이 원하는만큼 거짓 양성을 완전히 제한 할 수 있기 때문입니다. 그러나 트레이드 오프에서는 거대한 거짓 음성 발생으로 끝납니다.
Firebug

10
이 둘 사이에는 약간의 차이가 있습니다. 연어 종이는 모든 사람들 이미 해왔 던 다중 비교 수정의 중요성에 대한 훌륭한 비유 입니다. 대조적으로, PNAS 문제는 "올바른 일"을하려는 사람들을 물지 만 수정 자체는 약간 기이했습니다.
매트 크라우스

4
나는 이것이 일반적인 연구의 맥락에서 이러한 유형의 분석을 수행 할 때 여러 비교 수정과 핵심 가정의 핵심에 도달하기 때문에 물어 볼만한 질문이라고 생각합니다. 그러나 본문에서 유일하게 질문하는 것은 "그보다 더 많은 지식을 가진 사람이 그것에 대해 논평하고 싶어 하는가?"입니다. 다소 광범위하고 비특이적입니다. 이것이 도움말 센터의 범위 내에서 특정 통계 문제에 초점을 맞출 수 있다면이 포럼에 더 적합 할 것입니다.
복원 Monica Monica

2
감사. 질문을 좀 더 구체적으로 편집했습니다. 더 편집해야하는지 알려주세요.
R Greg Stacey

답변:


69

40000 그림에서

이 뉴스는 정말 감각 주의적이지만 논문은 실제로 잘 설립되었습니다. 연구실에서 며칠 동안 토론이 열렸으며, 연구자들이 자신의 작업을 조사 할 수 있도록하는 정말 필요한 비판이있었습니다. 나는 "클러스터 실패 : 왜 공간 범위에 대한 fMRI 추론이 오 탐률을 부풀 렸는가" 논문 (긴 인용문은 미안하다)의 저자 중 하나 인 Thomas Nichols다음 주석을 읽는 것이 좋습니다 .

그러나 후회하는 숫자는 40,000입니다. fMRI 규율의 중요성을 언급하기 위해, 우리는 전체 fMRI 문헌의 추정치를 우리의 발견에 의해 영향을받는 연구의 수로 사용했습니다. 우리의 방어에서, 우리는 대부분의 문헌이 영향을 받았다고 주장하는 지배적 추론 방법 인 클러스터 크기 추론 (P = 0.01 CDT의 경우 심각, P = 0.001의 편향)에 문제가 있음을 발견했습니다. 그러나 영향 성명서의 숫자는 인기있는 언론에 의해 포착되었으며 작은 twitterstorm을 먹였습니다. 그러므로 나는“우리의 작업이 얼마나 많은 기사에 영향을 미치는가”에 대한 대략적인 추정을하는 것이 나의 의무라고 생각합니다. 나는 서지 측정가가 아니며, 이것은 대략 거칠고 준비가 된 연습이지만, 문제의 규모에 대한 감각을 바랍니다.

Matlab의 분석 코드는 아래에 제시되어 있지만 여기에 스키니가 있습니다. 합리적인 확률 론적 계산에 기초하지만 약한 문헌을 바탕으로 약 15,000 개의 논문이 여러 테스트에 대한 교정과 함께 클러스터 크기 추론을 사용하는 것으로 추정됩니다. 이들 중 약 3,500은 P = 0.01의 CDT를 사용합니다. 3,500은 전체 문헌의 약 9 %이거나 원본 데이터가 포함 된 논문의 11 %가 더 유용합니다. (물론 이러한 15,000 또는 3,500 중 일부는 비모수 적 추론을 사용할 수 있지만, fMRI에서는 불행히도 드물지만 FSL의 구조적 VBM / DTI 분석을위한 기본 추론 도구입니다).

솔직히이 숫자는 더 높을 것이라고 생각했지만, 여러 번의 테스트 수정을 사용하지 않은 많은 연구를 실현하지 못했습니다. (정확하지 않으면 수정 된 유의성을 부 풀릴 수 없습니다!) . 이 계산은 13,000 개의 논문이 다중 테스트 수정을 사용하지 않았다는 것을 나타냅니다. 물론 이들 중 일부는 관심 영역 또는 하위 볼륨 분석을 사용하고있을 수도 있지만, 절대적으로 다중성이 전혀없는 것은 거의 없습니다 (임상 시험 스타일 결과). 본 논문은이 그룹에 대해 직접적으로 다루지는 않지만 P <0.001 & k> 10 민속 다중 테스트 수정을 사용한 출판물의 경우이 접근법이 50 %를 초과하는 가족 별 오류율을 가지고 있음을 보여줍니다.

우리는 3,500 개의 논문이“잘못되었다”고 말하고 있습니까? 따라 다릅니다. 우리의 결과는 CDT P = 0.01 결과가 P- 값을 부풀 렸음을 시사하지만 각 연구를 조사해야한다. 만약 효과가 실제로 강하다면 P- 값이 편향 되어도 과학적 추론은 변하지 않을 것이다. 그러나 효과가 실제로 약한 경우 결과는 실제로 노이즈와 일치 할 수 있습니다 . 그리고, 초기 문헌에서 일반적으로 수정되지 않은 13,000 개의 논문은 어떻습니까? 아니요, 그것들은 손으로 버려서는 안되지만, 특히 작업 방법이 개선 된 방법 론적 표준을 가진 새로운 참고 문헌과 비교할 때 특히 엉뚱한 눈이 필요합니다.

그는 또한이 테이블을 마지막에 포함합니다 :

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2    

기본적으로 SPM (Statistical Parametric Mapping, Matlab 도구 상자)은 fMRI 신경 과학 연구에 가장 널리 사용되는 도구입니다. 논문을 확인하면 SPM의 클러스터에 대해 P = 0.001 (표준)의 CDT를 사용하면 거의 가족 수준의 오류율을 얻을 수 있습니다.

저자들은 논문 의 말로 인해 정오표 를 채웠습니다 .

Eklund et al., Cluster Failure : 클러스터 실패 : 공간 범위에 대한 fMRI 추론이 오 탐지율을 부풀린 이유는 다음과 같습니다.

Eklund 등의 에라타 (Erata for Eklund), 군집 실패 : 공간 범위에 대한 fMRI 추론이 위양성 비율을 증가시킨 이유. 에클 런드, 앤더스; 니콜스, 토마스 E; 넛손, 한스

두 문장이 잘못 표현되어 결과를 과장하여 쉽게 오해 할 수 있습니다.

유의성 진술의 마지막 문장은 다음과 같아야합니다. "이 결과는 많은 fMRI 연구의 타당성에 의문을 제기하며 약한 유의미한 신경 영상 결과의 해석에 큰 영향을 미칠 수 있습니다."

"fMRI의 미래"라는 제목 이후 첫 번째 문장은 다음과 같은 내용을 읽어야합니다. "아무도없는 아카이빙 및 데이터 공유 관행으로 인해 문제가있는 분석을 다시 수행 할 수있는 것은 아닙니다."

이것은 우리의 연구가 모든 40,000 권의 출판물에 영향을 미쳤다는 것을 암시하는 두 문장을 대체합니다 (문학의 영향을받는 문헌이 얼마나 많은지에 대해서는 게스트의 클러스터 추론 참조).

정오표가 처음에는 정오표를 거부 한 후 사실이 아닌 해석이 수정되었다는 이유로 PNAS는 위에서 제출 한대로 정오표를 게시하기로 동의했습니다.


소위 버그에

일부 뉴스는 또한 연구의 무효의 원인으로 버그 를 언급했습니다 . 실제로, AFNI 도구 중 하나가 추론을 제대로 수정하지 못했으며 , 이는 preprint가 arXiv 에 게시 된 후에 해결되었습니다 .


기능적 신경 영상에 사용되는 통계적 추론

5%

사용 일반화 선형 모델 (GLM)은 실험의 패러다임의 설계와 관련되는 복셀 신호 시계열 식별 (정규 혈류 역학적 반응 함수와 뒤얽힌 일반적으로 부울 시계열하지만, 변화가 존재를).

따라서이 GLM은 각 복셀 시계열이 작업과 얼마나 비슷한지를 보여줍니다. 이제 환자와 대조군의 두 가지 개인 그룹이 있다고 가정하겠습니다. 그룹 간의 GLM 점수를 비교하여 그룹의 상태가 어떻게 뇌의 "활성화"패턴을 조절 하는지를 보여줄 수 있습니다.

그룹 간의 복셀 방식의 비교 는 가능하지만 장비 고유의 포인트 스프레드 기능과 평활 전처리 단계로 인해 복셀이 모든 정보를 개별적으로 전달한다고 기대하는 것은 합리적이지 않습니다. 그룹 간의 복셀 차이는 실제로 인접 복셀에 분산되어야합니다.

따라서 군집 별 비교 가 수행됩니다. 즉 군집으로 구성된 그룹 간의 차이 만 고려됩니다. 이 군집 범위 임계 값은 fMRI 연구에서 가장 많이 사용되는 다중 비교 보정 기술 입니다. 문제는 여기에 있습니다.

SPM과 FSL은 FWE 보정 복셀 및 클러스터 방식 유추에 대한 가우스 랜덤 필드 이론 (RFT)에 의존합니다. 그러나 RFT 클러스터 별 추론은 두 가지 추가 가정에 따라 달라집니다. 첫 번째 가정은 fMRI 신호의 공간적 평활도가 뇌에 걸쳐 일정하고 두 번째 가정은 공간 자기 상관 함수가 특정 모양 (제곱 지수)을 갖는 것입니다 (30).

SPM에서는 최소한 공칭 FWE 속도와 CDT (클러스터 정의 임계 값)를 설정해야합니다. 기본적으로 SPM은 작업과 높은 상관 관계가있는 복셀을 발견하고 CDT로 임계 값을 정한 후 인접 항목이 클러스터로 집계됩니다. 이 군집 크기는 FWER 세트 [ 1 ]가 주어지면 RFT (Random Field Theory)에서 예상되는 군집 범위와 비교됩니다 .

랜덤 필드 이론은 활동 맵이 매끄럽고 랜덤 필드에 대한 좋은 격자 근사치가 필요합니다. 이것은 볼륨에 적용되는 스무딩 양과 관련이 있습니다. 평활화는 중앙 한계 정리에 의해 평활화가 데이터를 더 가우시안으로 만들므로 잔차가 정상적으로 분포된다는 가정에도 영향을 미칩니다.

저자는 [ 1 ]에서 RFT의 예상 클러스터 크기가 RPT (임의 순열 테스트)에서 얻은 클러스터 범위 임계 값과 비교할 때 실제로 작은 것으로 나타났습니다 .

α=0.05


@amoeba는 다음과 같은 두 가지 관련 질문을 제기했습니다.

(1) Eklund et al. PNAS 논문은 모든 테스트의 "공칭 5 % 수준"에 대해 설명합니다 (예 : 그림 1의 검은 색 수평선 참조). 그러나, 동일한 도면에서 CDT는 다양하며 예를 들어 0.01 및 0.001 일 수있다. CDT 임계 값은 공칭 I 형 오류율과 어떤 관련이 있습니까? 나는 그것에 혼동된다. (2) Karl Friston의 답변 http://arxiv.org/abs/1606.08199를 보셨습니까 ? 나는 그것을 읽었지만 그들이 무슨 말을하는지 잘 모르겠습니다. 그들이 Eklund et al. 그러나 이것이 "잘 알려진"문제라고 말합니까?

(1) 좋은 질문입니다. 나는 실제로 내 참고 문헌을 검토했다. 지금 명확하게 할 수 있는지 보자. 군집 추정은 1 차 임계 값 ( 임의CDT )이 적용된 후 형성되는 군집의 범위를 기반으로합니다 . 이차 분석 에서는 클러스터 당 복셀 수에 대한 임계 값 이 적용됩니다. 이 임계 값은 이론 (예 : RFT)에서 추정 할 수있는 널 클러스터 범위의 예상 분포를 기반으로하며 공칭 FWER을 설정합니다. 좋은 참조는 [ 2 ]입니다.

(2)이 참조에 감사드립니다. Flandin & Friston은 Eklund et al. RFT 추론은 기본적으로 CDT 및 평활에 관한 가정을 존중하면 결과가 편견이 없음을 보여 주었기 때문에 확증 된 RFT 추론. 이러한 관점에서, 새로운 결과는 문헌에서 다른 관행이 RFT의 가정을 세분화함에 따라 추론을 편향시키는 경향이 있음을 보여준다.


여러 비교에서

또한 신경 과학에 대한 많은 연구가 문헌의 10 %에서 40 %에 이르는 추정치에 대한 다중 비교를 수정하지 않는 것으로 잘 알려져 있습니다. 그러나 이것들은 그 주장에 의해 설명되지 않으며, 모든 사람들은이 논문이 허약 한 타당성과 아마도 거짓 오 탐율을 가지고 있다는 것을 알고 있습니다.


FWER에서 70 % 이상

저자는 또한 70 %를 초과하는 FWER을 생산하는 절차를보고했다. 이 "민속"절차는 CDT를 적용하여 매우 중요한 클러스터 만 유지 한 다음 임의로 선택된 다른 클러스터 범위 임계 값 (복셀 수)을 적용하는 것으로 구성됩니다. 때때로 "집합 추론"이라고하는 통계 기반이 약하고 신뢰할 수있는 결과가 가장 적습니다.


이전 보고서

동일한 저자들이 이미 개별 분석에서 SPM [ 1 ] 의 타당성 문제에 대해보고했습니다 . 이 분야에서 인용 된 다른 작품들도 있습니다.

흥미롭게도 시뮬레이션 된 데이터를 기반으로 한 그룹 및 개인 수준 분석에 대한 여러 보고서는 RFT 임계 값이 실제로 보수적이라는 결론을 내 렸습니다. 최근 처리 능력이 향상됨에 따라 RPT는 실제 데이터에서 훨씬 쉽게 수행 할 수있어 RFT와 큰 차이가 있습니다.


업데이트 : 2017 년 10 월 18 일

"클러스터 실패" 에 대한 논평 은 지난 6 월에 나타났습니다 [ 3 ]. Mueller et al. Eklund et al에 제시된 결과는 연구에 사용 된 특정 이미징 전처리 기술에 의한 것일 수 있습니다. 기본적으로, 그들은 평활화하기 전에 기능 이미지를 더 높은 해상도로 리샘플링했습니다 (아마도 모든 연구원이 수행하지는 않지만 대부분의 fMRI 분석 소프트웨어에서 일상적인 절차 임). 그들은 또한 Flandin & Friston이 그렇지 않았다는 점에 주목합니다. 나는 같은 달에 밴쿠버에서 열린 OHBM (Organization for Human Brain Mapping) 연례 회의에서 Eklund가 연설을하는 것을 보았지만이 문제에 대한 의견은 기억 나지 않지만 질문에 결정적인 것으로 보입니다.


[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). SPM을 사용한 파라 메트릭 fMRI 분석으로 유효한 결과를 얻을 수 있습니까? —1484 실험 데이터에 대한 실험적 연구. NeuroImage, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A. & Wager, TD (2014). fMRI 분석에서 클러스터 범위 기반 임계 값 : 함정 및 권장 사항. Neuroimage, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). 해설 : 클러스터 실패 : 공간 범위에 대한 fMRI 추론이 오 탐지 비율을 높인 이유. 인간 신경 과학의 개척자, 11.


1
@Qroid 그렇습니다. 첫 번째 부분에서는 가정이 유지되지 않습니다 (비모수 순열 검정의 성능이 우수한 원인 일 수 있음). 클러스터는 복셀의 클러스터, 즉 동일한 효과를 나타내는 인접 복셀입니다. 클러스터 (클러스터 정의 임계 값)를 정의하는 p- 값이 있습니다.
Firebug

7
이 답변은 주로 40000인지 다른 숫자인지에 중점을두고 있지만 주요 토론 (클러스터는 무엇입니까? 가설 검정의 공간 상관 문제는 무엇입니까?)을 요약 할 수 있다면 많은 사람들에게 더 흥미로울 것입니다. 정말 전에 이것을 생각하니? 등)
아메바는 모니카의 모니카

1
다시 감사합니다. Woo et al. 2014 년, 이제 더 이상 왜 Eklund et al. PNAS로 만들었고, 그 결과 대중 언론과 블로그에서 그러한 혼란을 일으켰습니다. Were n't Woo et al. 거의 같은 것을 말하는가? 여기에 "강조 표시"얼룩이 있습니다. "자유로운 기본 임계 값을 사용하면 다른 함정이 오 탐지가 증가합니다."
amoeba는

1
내가 참조. 그래서 저는 현재 과학적으로 아무 일도 일어나지 않았다는 것을 이해하고 있습니다. 자유 CDT 문제는 수년간 알려져 왔으며 여러 논문에서 논의되었으며 다양한 연구자들에 의해 다양한 시뮬레이션에서 보여졌습니다. (그러나 그럼에도 불구하고 일부 연구자들은 그러한 위험한 자유 CDT를 계속 사용했다.) Eklund et al. 2016 년은 "높은 프로필"저널과 부에 출판되어 운이 좋았습니다! -모든 사람이 이제 계시라고 생각합니다.
amoeba는

7
@amoeba 신경 과학 공동체는 응용 심리학에서 일어난 것과 비슷한 통계적 단속이 필요하다 (p- 값 금지만큼 과감하지는 않을 것이다). 통계적 중요성을 주장하는 많은 논문은 통계적 엄격함이 없으며 사람들은 "결과가 나타나게하는"도구와 매개 변수를 사용합니다.
Firebug
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.