잘못된 발견 비율 및 다중 테스트와의 혼동 (Colquhoun 2014)


19

나는 David Colquhoun이 쓴이 위대한 논문을 읽었습니다 : 잘못된 발견 률과 p- 값의 잘못된 해석에 대한 조사 (2014). 본질적으로 그는 α = 0.05로 유형 I 오류를 제어하더라도 FDR (False Discovery Rate)이 까지 높은 이유를 설명합니다 .30%α=0.05

그러나 여러 테스트의 경우 FDR 제어를 적용하면 어떻게되는지 여전히 혼란 스럽습니다.

여러 변수 각각에 대해 테스트를 수행하고 Benjamini-Hochberg 절차를 사용하여 값을 계산했다고 가정 해보십시오. q = 0.049로 중요한 변수가 하나 있습니다. 이 결과에 대한 FDR이 무엇인지 묻고 있습니다.qq=0.049

장기적으로 볼 때 정기적으로 분석을 수행하면 Benjamini-Hochberg를 사용했기 때문에 FDR이 가 아니라 5 % 미만 이라고 가정 할 수 있습니까 ? 그것은 q- 값 이 Colquhoun의 논문에서 p- 값에 해당 하고 그의 추론이 여기에도 적용된다고 생각합니다. 그래서 0.05q- threshold를 사용함으로써 "나 자신을 속일"위험이 있습니다. Colquhoun은 사례의 30 %차지 합니다. 그러나 더 공식적으로 설명하려고했지만 실패했습니다.30%5%qpq0.0530%


2
@January, 왜 이렇게 큰 현상금 (250)을 제공하고 다시 보상을 받거나 답을 확인하지 않겠습니까? 당신이 잘되기를 바랍니다.
amoeba 말한다 Reinstate Monica

3
두 개의 원고가 벽돌처럼 내려 와서 완전히 잊어 버렸습니다.
1 월

답변:


15

우연의 일치로 나는 단지 몇 주 전에이 같은 논문을 읽었습니다. Colquhoun은 문제를 제기 할 때 섹션 4에서 여러 가지 비교 (Benjamin-Hochberg 포함)를 언급했지만 문제가 충분히 명확하지 않다는 것을 알았습니다. 그래서 혼란을 겪는 것에 놀라지 않습니다.

중요한 점은 Colquhoun이 다중 비교 조정없이 상황에 대해 이야기하고 있다는 것입니다. Colquhoun의 논문을 독자의 관점을 채택한 것으로 이해할 수 있습니다. 과학적 문헌을 읽을 때 어떤 FDR (False Discovery Rate)을 기대할 수 있는지 묻습니다. 이는 다중 비교 조정이 수행되지 않을 때 예상되는 FDR이 무엇인지를 의미합니다. 하나의 연구, 예를 들어 한 논문에서 여러 통계 테스트를 실행할 때 여러 비교를 고려할 수 있습니다. 그러나 아무도 논문 간 다중 비교 조정 한 사람은 없습니다 .

예를 들어 Benjamini-Hochberg (BH) 절차에 따라 FDR을 실제로 제어하면 FDR이 제어됩니다. 문제는 각 연구에서 BH 절차를 개별적으로 실행한다고해서 전체 FDR 제어가 보장되지는 않는다는 것입니다.

장기적으로 볼 때 정기적으로 분석을 수행하면 Benjamini-Hochberg를 사용했기 때문에 FDR이 가 아니라 5 % 미만 이라고 가정 할 수 있습니까 ?30%5%

아니요. 모든 용지에 BH 절차를 사용하지만 각 용지에 독립적으로 BH 조정 을 일반 p- 값으로 해석 할 수 있으며 Colquhoun의 말이 여전히 적용됩니다.


총론

예상되는 FDR에 대한 Colquhoun의 질문에 대한 답변은 다양한 가정에 따라 달라지기 어렵습니다. 예를 들어 모든 귀무 가설이 참이면 FDR은 (즉, 모든 "중요한"결과는 통계적 우변 일 것입니다). 그리고 모든 null이 실제로 거짓이면 FDR은 0이됩니다. 따라서 FDR은 실제 널 (null)의 비율에 따라 달라지며 FDR을 추정하기 위해 외부에서 추정하거나 추측 한 것입니다. Colquhoun은 30 % 숫자 에 찬성하여 몇 가지 주장을 제시 하지만이 추정치는 가정에 매우 민감합니다.100%30%

나는 그 논문이 대부분 합리적이라고 생각하지만 그것이 어떤 주장이 너무 대담하게 들리는 것을 싫어한다. 예를 들어 초록의 첫 문장은 다음과 같습니다.

p = 를 사용하면 를하여 발견했다고 제안하면 시간의 30 % 이상이 잘못됩니다.=0.0530%

이것은 너무 강력하게 공식화되어 실제로 오해의 소지가 있습니다.


물론, 나는 종이를 빨리 훑어 보았지만, 그는 본질적으로 큰 표본 크기에서 가짜 효과를 쉽게 찾을 수 있다는 잘 알려진 관념을 되풀이하는 것 같습니다 (그림 1). 그것은 의미가 아니라고 말하지만 저자가 제공하는 것과는 다른 (대담하게 언급되지 않은) 해석을 가져야한다고 생각합니다.
Ryan Simmons

1
@RyanSimmons가 왜 "큰 샘플 크기에서 가짜 효과를 쉽게 찾을 수 있다는 잘 알려진 관념을 되풀이하고있다"고 말했는지 잘 모르겠습니다. 큰 샘플 크기와는 아무런 관련이 없습니다! 나는 왜 그가 논문이 "다른 (그리고 덜 과감하게 언급 된) 해석"을 가져야한다고 생각하는지에 대한 설명을 환영한다.
David Colquhoun

"그러나 아무도 종이를 통한 다중 비교를 조정 한 사람은 없습니다. 또한 불가능한 일이 될 것입니다." 가족 별 오류율 조정에 비해 잘못된 발견 비율 조정의 장점 중 하나는 후자가 패밀리 의 정의를 요구하지만 전자는 임의의 수의 비교를 통해 확장 가능 하다는 것입니다.
Alexis

@Alexis, 나는 위키 백과를 보았고 FDR 제어가 "확장 가능"하다고 말하지만 정확히 그것이 무엇을 의미하는지 알지 못합니다 (전문가 아님). 그러나 각 논문마다 한 번의 테스트 만 수행 한 경우 Benjamini-Hochberg 절차는 정확히 아무 것도 수행하지 않습니다. 경우 거부 하고 다른 방식으로 허용합니다. 많은 논문에서 이것을 반복하는 것은 FDR 제어를 사용하지 않는 것과 동등하며 , 논문 전반에 걸쳐 모든 p- 값을 먼저 수집 한 다음 Benjamini-Hochberg 절차를 적용 하는 것과 반드시 같지 않습니다 . α
amoeba는 Reinstate Monica라고

글쎄, 당신이 설명하는 것은 분명히 다중 비교 절차가 아닙니다 . 그러나 5 번의 테스트에서 FDR 기반 조정 방법을 수행 한 다음 10 개 세트에 20 개를 더 추가 하고 동일한 방법을 다시 수행하면 FDR 하에서 기각 확률이 유지되지만 FWER에서는 기각 확률이 변경됩니다. Dunn의 Bonferroni 조정은 다소 극적인 예를 제공합니다.
Alexis

12

Benjamini & Hochberg는 내가하는 것과 같은 방식으로 오 탐지 양성 테스트의 일부로 오 탐지를 정의합니다. 따라서 다중 비교에 해당 절차를 사용하면 FDR을 올바르게 제어 할 수 있습니다. 그러나 BH 방법에는 많은 변형이 있다는 점은 주목할 가치가 있습니다. 버클리에서 열린 Benjamini의 세미나는 Youtube에 있으며 다음과 같은 가치가 있습니다.

왜 @amoeba가 "이것은 너무 강력하게 공식화되어 실제로 오도 될 수 있습니다"라고 말합니다. 왜 그렇게 생각하는지 알고 싶습니다. 가장 설득력있는 주장은 시뮬레이션 된 t 테스트 (섹션 6)에서 나옵니다. 그것은 거의 모든 사람들이 실제로하는 일을 모방하며 P를 0.047에 가깝게 관찰하고 발견했다고 주장하면 적어도 26 %의 시간이 잘못되었을 것입니다. 무엇이 잘못 될 수 있습니까?

물론, 나는 이것을 최소한으로 묘사해서는 안됩니다. 실제 효과가있을 확률이 50 %라고 가정하면 얻을 수 있습니다. 물론 대부분의 가설이 사전에 정확하다고 가정하면 FDR이 26 %보다 낮을 수 있지만, 가정에 근거하여 발견했다는 주장을 환영 할 수있는 위대함을 상상할 수 있습니다. 당신의 결론이 맞을 것이라고 90 % 확신했다. 26 %는 사전 확률이 0.5보다 큰 것으로 추정하는 것이 합리적인 근거가 아니라면 최소 FDR입니다.

테스트 할 때 직각이 자주 발생하지 않는다는 것을 감안할 때 특정 가설이 참일 확률은 10 %에 불과하며,이 경우 FDR은 76 %가 될 것입니다.

이 모든 것이 영의 가설에 따라 다르다는 것이 사실이며, 이는 제로 차이 (소위 점 null)가 있다는 것입니다. 다른 선택은 다른 결과를 줄 수 있습니다. 그러나 핵심은 거의 모든 사람들이 실제 생활에서 사용하는 것입니다 (알지 못할 수도 있음). 또한 point null은 전적으로 사용하기에 적절한 것으로 보입니다. 때로는 진정한 차이가 정확히 0이 아니라는 반대 의견이 있습니다. 동의하지 않습니다. 우리는 두 그룹 모두 동일한 치료를받는 경우와 우리의 결과가 구별되지 않는지 여부를 말하고 싶기 때문에 실제 차이는 정확히 0입니다. out 데이터가 해당 뷰와 호환되지 않는 것으로 판단되면 효과 크기를 추정합니다. 그 시점에서 우리는 그 효과가 실제로는 중요하지만 실제로 중요 할만큼 충분히 큰지에 대한 별도의 판단을 내립니다.Deborah Mayo의 블로그 .


@amoeba 답변 주셔서 감사합니다.

Mayo의 블로그에서 논의한 내용은 Mayo가 나에게 동의하지 않는다는 것입니다. Stephen Senn은 다른 사전 배포를 가정하면 다른 답변을 얻을 수 있다고 올바르게 지적합니다. 그것은 주관적인 베이지안 사람들에게만 흥미로운 것 같습니다.

그것은 항상 널을 가정하는 일상적인 연습과는 관련이 없습니다. 그리고 내가 설명했듯이, 그것은 완벽하게 합리적인 일인 것 같습니다.

많은 전문 통계 학자들이 저와 거의 같은 결론을 내 렸습니다. Sellke & Berger와 Valen Johnson (내 논문에서 언급)을 사용해보십시오. 내 주장에 대해 논란의 여지가없는 (또는 매우 독창적 인) 것은 없습니다.

0.5 이전의 가정에 대한 다른 요점은 전혀 가정이 아닌 것 같습니다. 위에서 설명한 바와 같이, 0.5 모 이상의 것은 실제로 받아 들일 수 없습니다. 0.5 미만이면 오 탐지율이 훨씬 높아집니다 (예 : 이전의 0.1 인 경우 76 %). 따라서 단일 실험에서 P = 0.047을 관찰하면 26 %가 허위 발견 비율이라고 말할 수 있습니다.


나는이 질문에 대해 더 많이 생각하고있다. FDR에 대한 나의 정의는 Benjamini와 동일합니다. 그러나 그것은 다른 테스트, 단일 테스트의 해석에 적용됩니다. 가늠자로 다른 용어를 선택하면 더 좋았을 것입니다.

단일 테스트의 경우 B & H는 P 값을 변경하지 않은 상태로 두므로이 용어를 사용한다는 의미에서 잘못된 발견 비율에 대해서는 아무 것도 말하지 않습니다.


물론 당신은 옳습니다. Benjamini & Hochberg 및 여러 비교를 수행하는 다른 사람들은 유형 1 오류율 만 수정하려고합니다. 그래서 그들은 "올바른"P 값으로 끝납니다. 다른 P 값과 동일한 문제가 있습니다. 최신 논문에서는 이러한 오해를 피하기 위해 FDR에서 FPR (False Positive Risk)로 이름을 변경했습니다.

우리는 또한 일부 계산을 수행하기 위해 웹 응용 프로그램을 작성했습니다 (우리가 제공하는 R 스크립트를 다운로드하는 사람이 거의 없다는 것을 알았 음) 그것은에서의 https://davidcolquhoun.shinyapps.io/3-calcs-final/ itare에 대한 모든 의견을 환영합니다 (먼저 메모 탭을 참조하십시오).

추신 : 웹 계산기는 이제 http://fpr-calc.ucl.ac.uk/ 에서 새로운 (영구적 인) 희망 을 가지고 있습니다. Shiny.io는 사용하기 쉽지만 누군가가 실제로 응용 프로그램을 사용하면 매우 비쌉니다 :-(


이 주제에 대한 두 번째 논문이 이제 Royal Society Open Science에 게재 될 예정이므로이 토론으로 돌아 왔습니다. 그것은에있다 https://www.biorxiv.org/content/early/2017/08/07/144337

첫 번째 논문에서 가장 큰 실수는 "FDR (false discovery rate)"이라는 용어를 사용하는 것이 었습니다. 새로운 논문에서 나는 다중 비교 문제에 대해 아무 것도 말하고 있지 않다는 것을 더 명확하게한다. 편견없는 단일 테스트에서 관찰 된 P 값을 해석하는 방법에 대한 문제 만 다룹니다.

최신 버전에서는 혼란을 줄이기 위해 결과가 FDR이 아닌 FPR (False Positive Risk) 일 가능성이 있습니다. 또한 역 베이지안 접근법을 옹호합니다. 예를 들어 5 %의 FPR을 보장하는 데 필요한 사전 확률을 지정하십시오. P = 0.05를 관찰하면 0.87이됩니다. 다시 말해, FPR을 5 % 달성하기 위해 실험을 수행하기 전에 실제 효과가 거의 (87 %) 확실해야합니다 (대부분의 사람들은 여전히 ​​p = 0.05의 의미를 믿습니다).


David에게, CrossValidated에 오신 것을 환영합니다. 우리는 원래 @January의 질문에 동의 한 것으로 보입니다 : FDR은 전체 BH 절차에 의해서만 통제 될 수 있습니다. BH가 각 논문에 개별적으로 적용되는 경우에도 귀하의 주장은 여전히 ​​적용됩니다. 그렇다면 원래 질문이 해결됩니다. "너무 강한"공식에 대한 나의 의견에 대해 : Mayo의 블로그에서 147 개의 의견을 읽은 후에 다른 토론을 시작하는 것이 주저합니다. 내가 쓴 것처럼, 나는 대부분 당신의 논문에 동의하며, 나의 반대는 단지 일부 공식에 관한 것이었다. [계속]
아메바는 Reinstate Monica가

1
[...] 초록의 첫 번째 문장은 여기에 나열된 이유로 정확히 "너무 강하다": 예를 들어 점 null을 가정하고 0.5 이전을 가정하지만 아무 것도 가정하지 않는 것처럼 들립니다. 도발적이려고 노력했습니다). Mayo의 블로그에 대한 많은 토론은 많은 사람들이 이러한 가정이 실제 과학 관행에 합리적이라는 데 동의하지 않는다는 것을 보여줍니다. 나도 내 자신의 반대를 가지고,하지만 난 할 이러한 가정이 정확하게 설명 할 수 있음에 동의 일부 과학 분야를. 그렇다면이 분야에는 큰 문제가 있습니다.
amoeba는 Reinstate Monica라고

2

혼란의 큰 부분은 여기에 반대되는 의견에도 불구하고 Colquhoun은 Benjamini-Hochberg와 같은 방식으로 FDR을 정의하지 않는다는 것입니다. Colquhoun이 용어가 이미 잘 정의 된 다른 정의를 가지고 있지 않은지 확인하기 전에 먼저 용어를 만들려고 한 것은 불행한 일입니다. 설상가상으로, Colquhoun은 기존 FDR이 종종 잘못 해석되는 방식으로 FDR을 정의했습니다.

그의 답변에서 Colquhoun은 FDR을 "긍정적 인 테스트의 일부"로 정의합니다. 이는 Benjamini-Hochberg가 FDP로 정의한 것과 유사합니다 (거짓 발견 비율과 혼동하지 않기 위해 거짓 발견 비율). Benjamini-Hochberg는 FDR을 FDP의 예상 값으로 정의하며, 긍정적 인 테스트가 없을 때 FDP가 0으로 간주된다는 규정 (모든 널이 참일 때 FDR을 FWER과 동일하게 만드는 규정) 0으로 나누기 때문에 정의 할 수없는 값을 피하십시오).

혼란을 피하기 위해 Colquhoun 논문의 세부 사항에 대해 걱정하지 말고 대신 알파 수준이 중요한 테스트 비율에 직접적으로 일치하지 않는다는 큰 그림 포인트 (수 많은 사람들이 만든 것)를 염두에 두십시오. 유형 I 오류입니다 (단일 연구 또는 여러 연구에서 중요한 시험에 대해 이야기하고 있는지 여부). 이 비율은 알파뿐만 아니라 검정력과 검증 된 귀무 가설의 비율에 따라 달라집니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.