새벽 이래로 모든 실험에 다중 가설 수정이 적용되지 않는 이유는 무엇입니까?


24

허위 발견 률을 제어하기 위해 단일 데이터 세트를 기반으로 실험에 다중 가설 검정에 대한 Benjamini Hochberg와 유사한 수정을 적용해야합니다. 그렇지 않으면 긍정적 인 결과를 제공하는 모든 실험이 허위 일 수 있습니다.

그러나 데이터의 출처에 관계없이 처음부터 모든 실험에 동일한 원칙을 적용하지 않는 이유는 무엇입니까?

결국, "유의 한"것으로 여겨지는 발표 된 과학적 결과의 절반 이상이 이제 거짓이며 재현 할 수없는 것으로 알려져 있으며, 이것이 100 %가되지 않는 이유는 없습니다. 과학자들은 단지 긍정적 인 결과만을 발표하는 경향이 있기 때문에, 우리는 부정적인 결과의 수에 대해 전혀 모릅니다. 따라서 우리가 출판 한 내용이 허위 긍정 일지 여부는 전혀 모릅니다. 한편, 다중 가설 검정 수정 배후의 수학은 동일한 데이터 세트의 결과에만 적용되어야하며 시간이 지남에 따라 수집 된 모든 실험 데이터의 결과에는 적용되지 않아야합니다.

과학 전체가 허위 또는 약한 가설에 기초한 하나의 큰 낚시 원정이 된 것 같습니다. 어떻게 이것을 통제 할 수 있습니까?

지금까지 게시 한 모든 것이 현재까지 수행 된 모든 실험에 대해 다중 가설 검정을 수정하지 않고 독립적 인 결과를 얻은 경우 허위 발견 률을 어떻게 제어 할 수 있습니까?

그러한 수정 적용 하지 않고 잘못된 발견 비율을 제어 할 있습니까?


2
귀하의 질문 meta.stats.stackexchange.com/questions/3049/…가 적용됩니다. 여기에는 몇 가지 큰 의문이있는 논란의 여지가있는 (일부 경우에는 과장된) 진술이 포함되어 있습니다. 나는 이것이 이미 당신에게 주어진 조언의 합의에 위배된다고 생각합니다.
Nick Cox

3
죄송합니다, 당신이 어떤 응답을 말하는지 모르겠습니다 : 여기에 참조가 없습니다. 나는 사람들의 대답을 멈출 수있는 욕망이나 권력을 갖고 있지도 않습니다. 그러나 예를 들어 "시간의 새벽부터"는 무의미한 과장의 작은 예이며 게시물에 다른 몇 가지가 있습니다. 이 사이트에 대한 저의 경험상, 그 자체로 도발적인 것이 당신의 근본적인 질문에 도움이되지는 않습니다. 독자는 물질에서 스타일을 제거해야합니다.
Nick Cox

3
초대해 주셔서 감사하지만 인생은 짧습니다. 메타 스레드에 대한 상호 참조를 주요 요점으로 삼겠습니다. 나는 스타일과 실체에 대한 나의 의견을 말했는데, 그것은 그 장점에 서 있거나 떨어질 수 있습니다.
Nick Cox

9
내가 과학을하고 있다면, 당신이 어떤 잘못된 발견 했는지는 중요하지 않습니다 . 사실, 특정 과학적인 주장을 만들기에 대하여, 나는 많은주의를하지 않을 수 있습니다 거짓 다른 것을 발견 나는 했다. 과학을하고 있지 않다면, 이 특정 분석에서 내가 저지른 다른 발견에 대해서는 신경 쓰지 않을 것입니다. 내 유형을 선택하면 두 가지 유형의 오류의 상대 비용을 기준으로 오류율이 발생하기 때문에 이미 둘 사이의 트레이드 오프를 선택했으며 다중 비교를 위해 수정해서는 안됩니다.
Glen_b-복지 주 모니카

2
다행스럽게도 다른 사람들은 저와 비슷한 견해를 아늑하고 명확하게 제시했습니다. 추가 의견으로, 나는 문학과 함께 과학을 접하는 것에 대해 조언한다. 모호함, 사소함, 논리적 오류 등과 같이 문헌을 실망시키는 많은 방법이 있습니다. 초록에서 모든 사람은 거짓 양성 테스트를 발표 한 모든 사람들의 생각에 당황하지만, 그들은 지속적인 영향을 미치기 위해 믿고 행동해야합니다. (약물 시험이라면 큰 문제가 될 수 있습니다.) 따라서 걱정해야 할 것이 많지만 과학이 끝났다고 생각하지 않습니다.
Nick Cox

답변:


20

이것은 실제로는 절대적으로 악몽 일 것이지만, 그렇게 할 수 있다고 가정합니다. 통계 술탄을 지정하고 가설 테스트를 실행하는 모든 사람은 그들의 원시 을이 저장소에 보고합니다 . 그는 일종의 전역 (문자) 다중 비교 수정을 수행하고 수정 된 버전으로 응답합니다.

이것은 과학과 이성의 황금 시대를 안내 할 것인가? 아마 아닐 것입니다.


검정에서와 같이 한 쌍의 가설을 고려하여 시작하겠습니다 . 두 그룹의 속성을 측정하고 그 속성에 대한 두 가설을 구별하려고합니다. H 0 :  그룹의 평균이 동일합니다. H A :  그룹마다 다른 수단이 있습니다. 유한 샘플에서, H 0이 실제로 참인 경우에도 평균이 정확히 같지 않을 수 있습니다 . 측정 오류 및 기타 변동 요인으로 인해 개별 값이 발생할 수 있습니다. 그러나 H 0t
H0: The groups have the same mean.HA: The groups have different means.
H0H0가설은 어떤 의미에서는 "지루하다"고 연구자들은 일반적으로 실제로 존재하지 않는 그룹들간에 차이를 발견했다고 주장하는 "거짓 긍정적"상황을 피하는 것에 관심이있다. 따라서 귀무 가설 하에서는 거의 보이지 않는 경우에만 결과를 "유의 한"것으로 만 부르며, 일반적으로 비유도 임계 값은 5 %로 설정됩니다.

이것은 단일 테스트에 적용됩니다. 이제 여러 테스트를 실행하기로 결정하고 5 %의 확률로 각 테스트 에 대해 실수로 을 수락한다고 가정합니다 . 따라서 충분한 테스트를 수행하면 거의 확실하게 오류가 발생하기 시작합니다.H0

다양한 다중 수정 접근 방식은 개별 테스트를 위해 이미 선택한 공칭 오류율로 돌아갈 수 있도록하기위한 것입니다. 그들은 약간 다른 방식으로 그렇게합니다. Bonferroni , SidakHolm 절차 와 같이 Family-Wise Error Rate 를 제어하는 ​​방법은 다음 과 같이 말합니다. "단일 테스트에서 5 %의 확률로 오류가 발생하기를 원했기 때문에 5 이상을 초과하지 않아야합니다. 모든 테스트에서 오류가 발생할 확률 % " False Discovery Rate 를 제어하는 ​​방법대신 "한 번의 테스트로 최대 5 %의 시간이 잘못되어도 괜찮습니다. 따라서 여러 번의 테스트를 수행 할 때 '통화'의 5 %를 넘지 않아야합니다." (차이점을 보시겠습니까?)


이제 모든 가설 검정 의 가족 별 오류율을 제어하려고 시도했다고 가정합니다 . 본질적으로 귀무 가설을 거짓으로 기각 할 수있는 <5 % 확률을 원한다고 말하고 있습니다. 이것은 엄청나게 엄격한 임계 값을 설정하고 추론은 사실상 쓸모가 없지만 훨씬 더 시급한 문제가 있습니다. 전역 교정은 절대적으로 무의미한 "화합물 가설"을 테스트한다는 것을 의미합니다.

H1:Drug XYZ changes T-cell count Grapes grow better in some fields Men and women eat different amounts of ice cream

False Discovery Rate 보정으로 수치 문제는 그다지 심각하지 않지만 여전히 철학적으로 엉망입니다. 대신, 유전체학 연구 중 후보 유전자 목록 또는 스펙트럼 분석 중 일련의 시간-주파수 빈과 같은 관련 테스트의 "패밀리"를 정의하는 것이 합리적입니다. 특정 질문에 맞게 가족을 조정하면 실제로 제 1 종 오류를 직접적으로 해석 할 수 있습니다. 예를 들어, 자신의 게놈 데이터에서 FWER로 수정 한 p- 값 세트를보고 "이 유전자 중 하나라도 위양성 일 확률이 <5 %입니다"라고 말할 수 있습니다. 이것은 관심이없는 주제에 대해 관심이없는 사람들이 수행 한 추론을 다루는 성가신 보증보다 훨씬 낫습니다.

이것의 반대 측면은 그가 "가족"의 적절한 선택이 논쟁의 여지가 있고 약간 주관적이라는 것입니다 (모든 유전자가 한 가족입니까 아니면 내가 키나아제를 고려할 수 있습니까?) 가족을 정의하는 것을 거의 광범위하게 옹호했습니다.


베이 즈는 어때?

베이지안 분석은 Frequentist Type I / Type II 오류 프레임 워크에서 조금 벗어나려는 경우이 문제에 대한 일관된 대안을 제공합니다. 우리는 이전에 ... 비공식적으로 시작했습니다. 우리가 무언가를 배울 때마다, 그 정보는 사후 분포를 생성하기 위해 이전과 결합되며, 이는 다음에 우리가 무언가를 배울 때 우선이됩니다. 이것은 일관된 업데이트 규칙을 제공하며 두 가설 사이의 베이 즈 계수를 계산하여 특정 사물에 대한 다양한 가설을 비교할 수 있습니다. 아마도 모델의 큰 덩어리를 제외시킬 수 있습니다. 이는 특히 번거롭지 않습니다.

베이지안 방법에는 다중 비교 수정이 필요하지 않다는 영구적 인 의견이 있습니다. 불행하게도, 사후 확률은 잦은 사람들 (즉, 유형 I / II 오류에 관심이있는 사람들)에 대한 또 다른 테스트 통계 일뿐입니다. 그것들은 이러한 유형의 오류를 제어하는 ​​특별한 속성을 가지고 있지 않습니다. 왜 그런가?

베이지안 반론은 우리가 지금 알아야 할 것에 집중해야 하므로 이러한 오류율은 중요하지 않다는 것입니다.


재현성

다중 비교 수정이 부적절하면 잘못되거나 재현 할 수없는 결과가 많이 발생하는 이유라고 생각하는 것 같습니다. 내 생각에는 다른 요소가 문제가 될 가능성이 높다는 것입니다. 분명한 것은 출판 압력이 사람들로 하여금 가설을 강조하는 실험 (즉, 나쁜 실험 설계)을 피하게한다는 것입니다.


고마워 매트. 나는 "통계적 술탄"이라는 아이디어를 좋아한다. 그래도 그러한 수정을 적용하지 않고 잘못된 발견 비율을 제어 할 수 있습니까?
Kelvin

9
내가하려고 한 요점은 모든 인간 노력 에 대한 거짓 발견 률 (또는 가족 별 오류율) 에 대해 걱정하는 것이 합리적이지 않다는 것입니다. 그렇게하려면 너무 많은 위험 회피가 필요하므로 아무 것도하지 않을 것입니다. 대신, 개별 실험에 대한 FDR / FWER를 꽤 낮게 유지하고 흥미롭고 유용한 등 중요한 것들을 복제하려고 시도하십시오.
Matt Krause

고마워, 결국 모든 것이 중요한 것들의 복제로 귀결됩니다. 이것은 과학 철학과 완전히 일치하며, 가설을 입증 할 수 없으며 반복 된 실험을 통해서만 시간이 지남에 따라 강화됩니다.
Kelvin

3
통계 술탄의 경우 +1 중요한 고려 사항 : 술탄은 p- 값이 연속적으로 도달한다는 사실을 어떻게 처리해야합니까? 처음에 도착한 p = 0.045는 의미가 있지만 몇 세기 후에는 기회가 없을 것입니까? 그것은 말이되지 않는 것 같습니다 (cc to @Kelvin). 또 다른 고려 사항 : Sultan이 1 년을 기다렸다가 지난해의 모든 결과에 수정 사항을 적용해야한다고 상상해보십시오. 조정 된 알파 임계 값이 실제로 어떻게 될지 궁금합니다. 그것에 대한 아이디어가 있습니까, 매트? 모두가 공통 알파에 동의한다고 가정하면 (거짓입니다!)입니다.
amoeba 말한다 Reinstate Monica

2
@amoeba, 그것은 흥미로운 질문이며, 잘 모르겠습니다. 우리의 사랑받는 Data Despot은 모든 사람들이 일종의 순차적 디자인을 사용하도록 강요 할 수 있지만,이 이상한 복합 가설을 여전히 테스트하고 있습니다. 또는 우리는 모두 베이지안이되어 대부분의 시간에 I / II 오류 추적 기록에 대해 걱정하지 않아도됩니다. 이것은 조금 싸다 (당신이 그들을 이길 수 없다면 무시하십시오!), 사람들이 실제로 행동하는 방식에 가깝다고 생각합니다.
매트 크라우스

7

나는 당신이 통계에 의해 만들어진 과학에 대한 비관적 인 견해를 의도적으로 그렸다 고 생각합니다. 사실, 통계는 p 값을 제공하는 도구 세트가 아닙니다. 과학적 유도의 절차와 관련된 몇 가지 가능한 영향에 대해 엄격하고주의를 기울인 상태도 있습니다 ... 그리고 내 마음 속으로, 당신이 진술 한 모든 것은 대략 사실입니다. 여기에 우리가 보증을하는 이유에 대한 몇 가지 의견이 있습니다. 우리가 생산하는 지식에 대해

  • 우선, 주어진 임계 값보다 낮은 p 값의 인수 하에서 만 결론에 도달해서는 안됩니다.

  • 둘째, "나의 과학적 결과의 절반 이상이 잘못되었다"는 내 지식의 주장은 적절하고 흥미롭지 만 대략 0.05와 동일한 p 값을 기준으로 계산됩니다 (예 : p- 값과 허위 발견 비율에 대한 혼동 참조 ) . p 값이 낮을수록 효과는 발표 된 것보다 훨씬 낮으며 실제로 0.05보다 훨씬 낮은 p 값을 얻는 것은 드문 일이 아닙니다. 더욱이, 주어진 가설은 여러 번의 가설로 확인되어 발표 된 효과를 다시 줄입니다.

  • 셋째, 재현성에 관한 문제는 사실이지만, 혼란스러운 효과, 그룹 디자인 등을 식별하고 처리함으로써 통계학자가 해결해야하는 문제이기도합니다. 전문 지식과 엄격함이 이루어지면 아주 잘 할 수 있습니다.

  • 마지막으로, 내가 이해 한대로, 전형적인 통계적 연구는 다음 5 가지 연속적인 단계에 다소 의존해야합니다.

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    이 일반 지침은 일반적인 결론을 내릴 수있는 도구 인 낚시 원정을 방지합니다.

결론적으로, p- 값을 초과 임계 값으로하여 나쁜 과학적 결론으로부터 우리를 보호하려는 당신의 의도는 약간 환상적이라고 말하고 싶습니다. 경고하고 적절한 분석을 보장하고 권장함으로써 나쁜 과학적 결론으로부터 우리를 보호하는 것을 선호합니다 (그리고 이것이 자격을 갖춘 사람이이 사이트의 다른 사람들을 돕기 위해 여기에있는 이유라고 생각합니다).


2
방어적인 태도를 취하는 데 도움이되지 않는다고 생각합니다. 과학의 재현 불가능성에 관한 현재의 문제는 단지 "흥미로운"문제가 아니라, 위기에 처해 있으며, 특정 연구 (또는 승인 된 약물의 효능)를 믿어야하는지 여부에 따라 자연과 심지어 경제학자를 다루고 있습니다. )는 수십억 달러의 투자에도 불구하고 이제는 동전 뒤집기보다 낫지 않습니다.
Kelvin

6
위기가 존재한다는 데 동의합니다. 내 요점은 동전의 품질을 검사 할 수 있다는 것입니다. 모든 용지의 품질이 같지는 않으며 제 경험상 용지에 결함이있는 경우가 종종 있습니다. 나는 해결책을 거부하는 문제를 부인하지 않는다 : 단지 적절한 분석을
만들어라.

고마워요, 당신의 대답을 존중합니다. 그러나 여전히 통계적 관점에서 볼 때, 실험의 품질에 관계없이 그러한 수정을 적용하지 않고는 전체적인 잘못된 발견 비율을 제어 할 수 없습니다.
Kelvin

0

그러한 수정을 적용하지 않고 잘못된 발견 비율을 제어 할 수 있습니까?

예. 이것은 p 값의 임계 값이하는 것입니다. 잘못된 발견 비율을 해당 임계 값으로 설정합니다. 장기적으로 모든 테스트에서 실제 귀무 가설에서 실행되며 만100aa

(자주적인) 오류율은 개별 테스트로 테스트 된 가설에 대한 모든 확률에 관심이 없으며 장기적인 실패율을 보장하는 테스트를 수행하는 방법으로 사용됩니다. 다중 비교에 대한 보정은 장기 고장률을 보장하는 또 다른 방법입니다. 여러 테스트를 포함하는 복합 분석법을 구성하여 화합물에 대해 보장 된 장기 고장률을 유지하는 방법입니다.

100 번의 테스트로 단일 실험을 수행하고 그 중 5 개가 null에 대해 응답하여 실제 결과를 관찰했다고 주장하면 아무도 진정한 null에 대한 100 개의 테스트 중 평균 5 %는 받지 않다; "100 테스트를 수행하고 5 % 임계 값을 충족하는지보고"한 방법은 5 %보다 높은 실패율을 나타냅니다. 따라서 다중 비교를 제어하고 예를 들어 100 개의 테스트 중 2 개에서 p 값이 (5/100 == 0.05) %보다 낮았다 고보고 할 수 있습니다. 이제 5 %의 보장 된 실패율 (가설이 하나도없는 경우에도 적어도 하나의 중요한 테스트를보고하는 오류에 대해)을 보장하는 방법을 사용합니다.

즉, FWE / 가족 오류 정정은 전체 오류율을 제어합니다. n , 수정되지 않은 임계 값 을 수행하는 경우 ). 반대로, 모든 사람이 항상 연구 당 100 개의 가설을 검정하고 FEW를 적용하지 않은 경우, 유의 한 효과를보고하는 실험 수가 보장 된 오류율 5 %를 초과 할 것입니다. FDR / False Detection Rate와 대조되는 것은 실제 가설에 대한 여러 검정의 연구에서 중요한 검정을보고하는 비율을 보장하는 방법이 아닙니다.a


6
첫 번째 단락에서 "잘못된 발견 비율"이라고 부르는 것은 "거짓 발견 비율"이 아닙니다.
amoeba 말한다 Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.