Benjamini & Hochberg는 내가하는 것과 같은 방식으로 오 탐지 양성 테스트의 일부로 오 탐지를 정의합니다. 따라서 다중 비교에 해당 절차를 사용하면 FDR을 올바르게 제어 할 수 있습니다. 그러나 BH 방법에는 많은 변형이 있다는 점은 주목할 가치가 있습니다. 버클리에서 열린 Benjamini의 세미나는 Youtube에 있으며 다음과 같은 가치가 있습니다.
왜 @amoeba가 "이것은 너무 강력하게 공식화되어 실제로 오도 될 수 있습니다"라고 말합니다. 왜 그렇게 생각하는지 알고 싶습니다. 가장 설득력있는 주장은 시뮬레이션 된 t 테스트 (섹션 6)에서 나옵니다. 그것은 거의 모든 사람들이 실제로하는 일을 모방하며 P를 0.047에 가깝게 관찰하고 발견했다고 주장하면 적어도 26 %의 시간이 잘못되었을 것입니다. 무엇이 잘못 될 수 있습니까?
물론, 나는 이것을 최소한으로 묘사해서는 안됩니다. 실제 효과가있을 확률이 50 %라고 가정하면 얻을 수 있습니다. 물론 대부분의 가설이 사전에 정확하다고 가정하면 FDR이 26 %보다 낮을 수 있지만, 가정에 근거하여 발견했다는 주장을 환영 할 수있는 위대함을 상상할 수 있습니다. 당신의 결론이 맞을 것이라고 90 % 확신했다. 26 %는 사전 확률이 0.5보다 큰 것으로 추정하는 것이 합리적인 근거가 아니라면 최소 FDR입니다.
테스트 할 때 직각이 자주 발생하지 않는다는 것을 감안할 때 특정 가설이 참일 확률은 10 %에 불과하며,이 경우 FDR은 76 %가 될 것입니다.
이 모든 것이 영의 가설에 따라 다르다는 것이 사실이며, 이는 제로 차이 (소위 점 null)가 있다는 것입니다. 다른 선택은 다른 결과를 줄 수 있습니다. 그러나 핵심은 거의 모든 사람들이 실제 생활에서 사용하는 것입니다 (알지 못할 수도 있음). 또한 point null은 전적으로 사용하기에 적절한 것으로 보입니다. 때로는 진정한 차이가 정확히 0이 아니라는 반대 의견이 있습니다. 동의하지 않습니다. 우리는 두 그룹 모두 동일한 치료를받는 경우와 우리의 결과가 구별되지 않는지 여부를 말하고 싶기 때문에 실제 차이는 정확히 0입니다. out 데이터가 해당 뷰와 호환되지 않는 것으로 판단되면 효과 크기를 추정합니다. 그 시점에서 우리는 그 효과가 실제로는 중요하지만 실제로 중요 할만큼 충분히 큰지에 대한 별도의 판단을 내립니다.Deborah Mayo의 블로그 .
@amoeba 답변 주셔서 감사합니다.
Mayo의 블로그에서 논의한 내용은 Mayo가 나에게 동의하지 않는다는 것입니다. Stephen Senn은 다른 사전 배포를 가정하면 다른 답변을 얻을 수 있다고 올바르게 지적합니다. 그것은 주관적인 베이지안 사람들에게만 흥미로운 것 같습니다.
그것은 항상 널을 가정하는 일상적인 연습과는 관련이 없습니다. 그리고 내가 설명했듯이, 그것은 완벽하게 합리적인 일인 것 같습니다.
많은 전문 통계 학자들이 저와 거의 같은 결론을 내 렸습니다. Sellke & Berger와 Valen Johnson (내 논문에서 언급)을 사용해보십시오. 내 주장에 대해 논란의 여지가없는 (또는 매우 독창적 인) 것은 없습니다.
0.5 이전의 가정에 대한 다른 요점은 전혀 가정이 아닌 것 같습니다. 위에서 설명한 바와 같이, 0.5 모 이상의 것은 실제로 받아 들일 수 없습니다. 0.5 미만이면 오 탐지율이 훨씬 높아집니다 (예 : 이전의 0.1 인 경우 76 %). 따라서 단일 실험에서 P = 0.047을 관찰하면 26 %가 허위 발견 비율이라고 말할 수 있습니다.
나는이 질문에 대해 더 많이 생각하고있다. FDR에 대한 나의 정의는 Benjamini와 동일합니다. 그러나 그것은 다른 테스트, 단일 테스트의 해석에 적용됩니다. 가늠자로 다른 용어를 선택하면 더 좋았을 것입니다.
단일 테스트의 경우 B & H는 P 값을 변경하지 않은 상태로 두므로이 용어를 사용한다는 의미에서 잘못된 발견 비율에 대해서는 아무 것도 말하지 않습니다.
물론 당신은 옳습니다. Benjamini & Hochberg 및 여러 비교를 수행하는 다른 사람들은 유형 1 오류율 만 수정하려고합니다. 그래서 그들은 "올바른"P 값으로 끝납니다. 다른 P 값과 동일한 문제가 있습니다. 최신 논문에서는 이러한 오해를 피하기 위해 FDR에서 FPR (False Positive Risk)로 이름을 변경했습니다.
우리는 또한 일부 계산을 수행하기 위해 웹 응용 프로그램을 작성했습니다 (우리가 제공하는 R 스크립트를 다운로드하는 사람이 거의 없다는 것을 알았 음) 그것은에서의 https://davidcolquhoun.shinyapps.io/3-calcs-final/ itare에 대한 모든 의견을 환영합니다 (먼저 메모 탭을 참조하십시오).
추신 : 웹 계산기는 이제 http://fpr-calc.ucl.ac.uk/ 에서 새로운 (영구적 인) 희망
을 가지고 있습니다. Shiny.io는 사용하기 쉽지만 누군가가 실제로 응용 프로그램을 사용하면 매우 비쌉니다 :-(
이 주제에 대한 두 번째 논문이 이제 Royal Society Open Science에 게재 될 예정이므로이 토론으로 돌아 왔습니다. 그것은에있다 https://www.biorxiv.org/content/early/2017/08/07/144337
첫 번째 논문에서 가장 큰 실수는 "FDR (false discovery rate)"이라는 용어를 사용하는 것이 었습니다. 새로운 논문에서 나는 다중 비교 문제에 대해 아무 것도 말하고 있지 않다는 것을 더 명확하게한다. 편견없는 단일 테스트에서 관찰 된 P 값을 해석하는 방법에 대한 문제 만 다룹니다.
최신 버전에서는 혼란을 줄이기 위해 결과가 FDR이 아닌 FPR (False Positive Risk) 일 가능성이 있습니다. 또한 역 베이지안 접근법을 옹호합니다. 예를 들어 5 %의 FPR을 보장하는 데 필요한 사전 확률을 지정하십시오. P = 0.05를 관찰하면 0.87이됩니다. 다시 말해, FPR을 5 % 달성하기 위해 실험을 수행하기 전에 실제 효과가 거의 (87 %) 확실해야합니다 (대부분의 사람들은 여전히 p = 0.05의 의미를 믿습니다).