개별 연구원은 허위 발견 률에 대해 어떻게 생각해야합니까?


30

나는 FDR (False Discovery Rate)이 어떻게 개별 연구원의 결론을 알려야하는지에 대해 고심했습니다. 예를 들어 연구에 힘이 부족한 경우 에서 유의미한 결과라도 할인해야 합니까? 참고 : 여러 테스트 수정 방법이 아니라 여러 연구 결과를 종합적으로 검사하는 맥락에서 FDR에 대해 이야기하고 있습니다.α=.05

검정 된 가설의 가 실제로 참 이라고 관대하게 가정 하면 FDR은 다음과 같이 유형 I 및 유형 II 오류율의 함수입니다..5

FDR=αα+1β.

만약 연구가 충분히 힘이 부족 하다면 , 우리가 결과가 의미가 있더라도, 우리가 적절한 힘을 가진 연구의 결과만큼 신뢰하지 말아야한다는 이유가 있습니다. 따라서 일부 통계 학자들이 말하듯 이 "장기적으로"상황에 따라 전통적인 지침을 따르면 잘못된 결과를 많이 발표 할 수 있습니다. 연구의 시체가 지속적으로 파워 부족 연구 (예를 들어, 후보 유전자에 의해 특징되어있는 경우 환경의 상호 작용 이전 년대 문학 ), 심지어 복제 된 중요한 결과는 의심 할 수있다.×

는 R 패키지를 적용 extrafont, ggplot2그리고 xkcd, 나는이 유용 int로서 개념화 될 수 있다고 생각 관점의 문제 : 중요한 결과 ...

확실하지 않습니다 ...

이 정보가 주어지면 개인 연구원은 다음에 무엇을해야 합니까? 내가 연구하고있는 효과의 크기가 무엇인지 짐작한다면 (따라서 샘플 크기가 주어진 경우 의 추정치 ) FDR = .05까지 수준을 조정해야 합니까? 연구 결과가 저조한 경우에도 수준으로 결과를 게시 하고 문헌 소비자에게 FDR을 고려해야합니까?α α = .051βαα=.05

나는 이것이이 사이트와 통계 문헌에서 자주 논의되는 주제라는 것을 알고 있지만,이 문제에 대한 의견에 대한 합의를 찾을 수없는 것 같습니다.


편집 : @amoeba의 의견에 대한 응답으로 FDR은 표준 유형 I / 유형 II 오류율 우발 상황 표 (추악한 사면)에서 파생 될 수 있습니다.

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

따라서 중요한 결과 (1 열)가 제시되면 실제로 거짓 일 가능성은 열 합계의 알파입니다.

그러나 예, 연구력 여전히 중요한 역할을 하지만 주어진 가설이 참 (사전) 확률을 반영하도록 FDR 정의를 수정할 수 있습니다 .(1β)

FDR=α(1prior)α(1prior)+(1β)prior

그것은 당신에게 당신의 질문에 대한 명확한 대답을 줄 수는 없지만 글 에서 영감을 얻을 수 있습니다 .
JohnRos

1
귀하가 링크 한 David Colquhoun의 논문은 여기에서 매우 최근에 논의되었습니다 (@DavidColquhoun이 토론에 직접 참여 함).
amoeba 말한다 Reinstate Monica

2
와 관점에서 FDR 공식은 어디에서 왔습니까? 어쩌면 나는 어리석은 것이지만 왜 그것이 사실인지 알 수 없습니다. 나는 FDR이 연구 모집단에서 null의 유병률에 의존 할 것으로 기대하는데, 이는 귀하의 공식에 들어 가지 않는 것 같습니다. 혼란 스러워요. βαβ
amoeba 말한다 Reinstate Monica

2
글쎄, 나는 그것을 다시 가져 가야합니다 : 원래 확률은 특별한 경우에 사전 확률 때 정확합니다 . 당신은 실제로 모든 것을 썼습니다. 그러나 나는 눈치 채지 못했습니다. 죄송합니다. 또한 주어진 ( 또는 제외)에 대해 FDR은 제로 전력에서 에 도달하면 감소하는 전력으로 증가 합니다. 따라서 귀하의 질문은 +1입니다. p p = 0 이전 = 1 1p=0.5pp=0prior=11
amoeba 말한다 Reinstate Monica

1
@Horst, 저전력 연구 (OP가 기술하고 있음)의 "문제"는 일부 분야의 모든 연구가 심하게 저전력을받는다면 실제 효과를 거의 감지하지 못하지만 확률 는 거짓 발견을보고 할 수 있다는 것입니다. 보고 된 발견의 대부분이 거짓 (즉, 매우 높은 FDR)이됩니다. 이것은 과학 분야에있어서 좋은 상황이 아니다.α
아메바는 모니카의 Reinstate Monica가

답변:


6

여러 연구 결과를 집계하려면 메타 분석에 결과를 액세스 할 수 있도록해야합니다. 메타 분석은 연구의 데이터 또는 적어도 그 추정치, 연구 효과를 고려하고 많은 소규모 단일 연구에서 일종의 대규모 가상 연구를 형성함으로써 체계적인 결론을 도출합니다. 개별 , 가상의 선행 및 계획된 전력은 메타 분석에 중요한 입력이 아닙니다.p

대신, 힘 수준이나 중요한 결과를 무시하고 모든 연구에 접근 할 수 있도록하는 것이 중요합니다. 실제로, 중요하지 않고 중요한 결과 만 숨기는 나쁜 습관은 출판 편견을 초래하고 과학적 결과의 전체 기록을 손상시킵니다.

따라서 개별 연구자들은 재현 가능한 방식으로 연구를 수행하고, 출판 일지에서 그러한 세부 사항을 요구하지 않더라도 모든 기록을 유지하고 모든 실험 절차를 기록해야합니다. 그는 저전력에 대해 너무 걱정해서는 안됩니다. 정보가 충분하지 않은 결과 (= 귀무 가설이 기각되지 않음)조차도 충분한 데이터 품질을 제공 할 수있는 한 추가 연구에 더 많은 추정량을 추가 할 수 있습니다.

과 일부 FDR 고려 만으로 결과를 집계하려고하면 표본 크기가 더 크고 분산이 더 작은 연구를 통해 잘못된 방법을 선택하게됩니다. 그러나 그들은 모두 생산 에 대한 -values 최고의 FDR 절차 -values 품질 격차를 만회 할 수 없다.p pppp


Horst, 당신은 요청 된 것과 다른 질문에 대답하고있는 것 같습니다.
Alexis

1
문제는 연구가 아닌 연구 사이의 FDR에 관한 것입니다. 여기에는 수용 가능한 전체적인 올바른 결정 속도를 얻기 위해 일종의 베이지안 접근이 필요합니다. 제 답변은 전체적인 판단이 의사 결정이 아닌 연구 데이터와 추정치를 집계하여 이루어 지므로, 단일 연구의 데이터 (결정이 아닌)가 신뢰할 수있는 한, 거대한 "가상 연구"를 만들어 문제를 해결합니다.
Horst Grünbusch 1

6

만약 [개인 연구원]이 내가 연구하고있는 효과의 크기가 [...]이어야한다고 추측한다면 , FDR = .05가 될 때까지 레벨을 조정해야 합니까? 연구 결과가 저조한 경우에도 수준으로 결과를 게시 하고 문헌 소비자에게 FDR을 고려해야합니까?α = .05αα=.05

나는 수준을 특정 FDR에 도달 하도록 조정하려고 시도하지 않을α 것입니다. 매우 어렵 기 때문입니다. 좋은 힘의 추정뿐만 아니라 모호하게 정의 된 일부 null의 유병률에 대한 좋은 추정이 필요합니다. (!) 자신의 연구가 포함 된 것으로 생각되는 연구 집단. 이것은 거의 불가능합니다.

반면에, @DavidColquhoun과 그의 논문의 특정 주장에 대해 오랫동안 논의 했지만, 가 특히 강력한 증거로 나를 공격하지 않는다는 그의 실제 권장 사항에 어느 정도 동의합니다 . 개인적으로, 나는 상대적으로 약한로 고려 배운, 그리고 확신하고 있지 않다 전혀 많은 발표 결과에 의해 하나의 관건이 . 진정으로 설득력있는 과학적 결과는 일반적으로 작은 값 이거나, 결론을 뒷받침하는 여러 실험을 바탕으로합니다 ( "결합 된 값은 다시 작습니다").p 0.05 p p 0.05 pp<0.05p0.05pp0.05p

따라서 특정 자동 방식으로 를 조정하는 대신 일반적으로 자신의 발견에 대해 매우 회의적인 태도를 유지하는 것이 좋습니다. 특히 연구에 힘이 부족하다는 것을 알고 있다면 더욱 그렇습니다 . 더 많은 데이터를 얻으십시오. 지지하는 분석을 생각해보십시오. 다른 실험을 실행하십시오. 기타.α


5

이것은 실제로 깊은 철학적 질문입니다. 나는 연구원이고 나는 이것에 대해 잠시 생각했습니다. 그러나 대답하기 전에 허위 발견 비율이 무엇인지 정확하게 검토합시다.

FDR 대 P P는 단순히 차이가없고 힘을 고려하지 않을 때 차이가 있다고 말할 확률을 측정 한 것입니다. 반면에 FDR은 권한을 고려합니다. 그러나 FDR을 계산하려면 다음과 같은 가정을해야합니다. 진정한 긍정적 인 결과를 얻을 확률은 얼마입니까? 그것은 매우 헌신적 인 상황을 제외하고는 우리가 결코 접근 할 수없는 것입니다. 저는 최근 세미나에서 세미나에 대해 이야기했습니다. 여기 에서 슬라이드를 찾을 수 있습니다 .

다음은 David Colquhoun의 주제에 관한 논문 의 그림입니다 .

칼 쿠온 2014

오 탐지 비율은 오 탐지 수를 오 탐지와 오 탐지 (예 : 495 / (80 + 495) x 100 % = 86 %)의 합으로 나누어 계산합니다!

P에 대해 조금 더

강의에서 나온 슬라이드를 자세히 살펴보십시오. P 값이 분포에서 도출된다는 사실을 논의했습니다. 즉, 항상 오 탐지를 발견 할 가능성이 있습니다. 따라서 통계적 중요성을 절대적인 진리로 생각해서는 안됩니다. 나는 통계적으로 중요한 것이 "여기 흥미로운 것이 있을지도 모르겠다. 확실하지 않다. 따라서 연구에서 재현성의 기본 개념!

그래서 ... 우리는 무엇을합니까? 위의 그림과 P 및 FDR 분석에 대한 흥미로운 점은 우리가 명확한 이해를 얻을 수있는 유일한 방법은 1) 재현성과 2) 모든 결과를 게시하는 것입니다. 그것은 부정적인 결과를 포함합니다 (음의 결과는 해석하기 어렵지만). 그러나 결과에서 도출 한 결론은 적절해야합니다. 불행히도 많은 독자와 연구자들은 P와 FDR의 개념을 완전히 이해하지 못합니다. 결과를 적절하게 분석하는 것은 독자의 책임이라고 생각합니다. 이는 짐이 궁극적으로 교육자의 어깨에 있다는 것을 의미합니다. 결국, "유병률"(위 그림 참조)이 0 인 경우 P 값 0.000000001은 의미가 없습니다 (이 경우 잘못된 발견 비율은 100 %입니다).

출판 연구원으로서 결과를 완전히 이해하고 자신이 원하는만큼만 주장을 할 수 있도록주의하십시오. 특정 연구에 대한 FDR이 86 % 인 것으로 판명되면 (위의 예와 같이) 해석에 매우주의해야합니다. 반면에, FDR이 귀하의 편의를 위해 충분히 작은 경우에도 .... 귀하의 해석에 여전히주의하십시오.

나는 여기의 모든 것이 분명하기를 바랍니다. 매우 중요한 개념이며 토론을 제기하게되어 기쁩니다. 궁금한 점이 있으시면 알려주세요.


1
@Alexis 압도적 인 연구는 없습니다! 효과 크기가 눈에 띄는 한, 더 큰 표본 크기를 가진 연구를 통해 효과의 크기를 더 자세히 정의 할 수있는 해가 없습니다. '파워 파워'라는 개념은 관측 된 데이터를 보지 않고 P- 값을 보는 데 유용한 추론을 할 수 있다는 빈 개념과 관련이있는 것 같습니다.
Michael Lew

1
@MichaelLew : p- 값과 함께 예상 효과 크기를 항상 고려하면 초과 전력 문제를 부분적으로 해결할 수 있습니다. 그러나 이것은 p- 값의 목적을 약간 상쇄합니다. 효과 추정기를 이진 테스트 결과에 "현재 존재 / 비 효과"매핑하여 제 1 종 오류율이 일치합니다. 또한 p- 값을 보면 관련 효과 크기가 무엇인지 판단 할 수 있습니다. 따라서 Alexis가 제안한대로 관련 효과 범위를 미리 지정하고이를 연구 CI와 비교하여 문제를 해결하는 것이 가장 좋습니다.
Horst Grünbusch

1
@MichaelLew 귀무 가설 이 실제로 존재할 수 있다고 가정 합니다 . 즉, 는 0에 매우 가까운 값 범위와 달리 실제로 정확히 0 과 같습니다 . 빈번한 테스트는 실제로 연결된 질문의 OP가 설명 된 것처럼 거의 제로 측정으로 간주되도록 편향 되어 있습니다. 해당 쿼터 리에 대한 유일한 해결책은 (빈번한 테스트 영역 내에서) 관련성이 큰 효과 크기명시 적으로 해결하는 것 입니다. 내가 착각하면, 나는 아주 좋은 회사에 있습니다. : Dθ
Alexis

1
어느 정도까지 ... 나는 통계적 추론 측면에서 엄격히 말하고 있었지만, 연구 설계의 논리와 과학 지식 생성의 온톨로지에 대해 더 많이 이야기하고 있습니다. 즉, 많은 WRT 프로토콜 등으로 해석되지 않은 긍정적 인 결과 는 부정적인 결과만큼 가짜 일 가능성이 있다고 생각합니다. 우주의 모든 현상이 고립 된 상태에서 연구 할 수있는 것은 아니며 (예 : 개인과 인구 건강이 동시에 화학적, 사회적, 행동 적 등), 이러한 복잡한 시스템에 대한 연구에는 존재 론적 불확실성이 수반되어야한다.
Alexis

2
@ HorstGrünbusch 나는 원래 질문이 P 값이 아닌 알파와 베타를 다루기 때문에 하이브리드 컨텍스트에서 설정되는 것으로 보지 않습니다. 그러나 justanotherbrain의 답변은 Neyman & Pearson 프레임 워크 또는 중요도 테스트 프레임 워크에만 배치하기 위해서는 신중한 재 작업이 필요합니다. 허위 발견 비율은 실제로 전자에만 속합니다.
Michael Lew

3

관계를 이해하기 위해 다양한 거듭 제곱 (알파 = 0.05)에 대한 사전 확률의 함수로이 FDR 그래프를 만들었습니다. 이 그래프를 참고하고 @Buckminster 방정식은 P보다 알파가 작은 모든 결과에 대한 FDR을 계산합니다. 한 연구에서 관찰 한 P 값과 매우 가까운 P 값만 고려하면 그래프가 다르게 보일 것입니다.


2
그리고 여기 반짝이는 앱 버전이 있습니다 (약간 다릅니다) : buckminster.shinyapps.io/FalseDiscoveryRate
Richard Border

1

출판 제안은 결정입니다. 이 결정과 관련된 이점과 비용이 무엇인지 연구하는 것이 가치 있다고 생각합니다.

1) 학업 환경은 보편적으로 연구자들이 더 많은 출판을하도록 강요하며, 다양한 출판 순위가이 기록에도 영향을 줄 것이라고 생각했다. 우리는보다 권위있는 저널이보다 강력한 품질 검사를 할 수 있다고 추정 할 수 있습니다 (그렇기를 바랍니다).

2) 너무 많은 출판물과 관련된 사회적 비용이있을 수 있습니다. 이러한 자료는 결과를 발표하지 않은 응용 연구에서와 같이 다른 곳에서 더 잘 사용될 수 있습니다. 새로운 출판물의 양이 너무 많아서 많은 출판물이 소스로 중요하지 않은 출판물이 최근에있었습니다 ... :)

http://arxiv.org/pdf/1503.01881v1.pdf

개별 연구자 1 위를 위해 더 많은 출판물을 출판해야하므로 품질을 수용 가능한 수준으로 유지하기 위해서는 개별 사람들에 의존하지 않는 제도화 된 품질 검사가 있어야한다고 생각합니다.

어쨌든 매개 변수 값이 사실이 아닌 경우, 결과가 진실하거나 거짓 일 때 게시 된 결과 수와 관련된 다양한 비용과 이점을 고려하여 값을 제공해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.