이것은 실제로는 절대적으로 악몽 일 것이지만, 그렇게 할 수 있다고 가정합니다. 통계 술탄을 지정하고 가설 테스트를 실행하는 모든 사람은 그들의 원시 을이 저장소에 보고합니다 . 그는 일종의 전역 (문자) 다중 비교 수정을 수행하고 수정 된 버전으로 응답합니다.p
이것은 과학과 이성의 황금 시대를 안내 할 것인가? 아마 아닐 것입니다.
검정에서와 같이 한 쌍의 가설을 고려하여 시작하겠습니다 . 두 그룹의 속성을 측정하고 그 속성에 대한 두 가설을 구별하려고합니다.
H 0 : 그룹의 평균이 동일합니다. H A : 그룹마다 다른 수단이 있습니다.
유한 샘플에서,
H 0이 실제로 참인 경우에도 평균이 정확히 같지 않을 수 있습니다 . 측정 오류 및 기타 변동 요인으로 인해 개별 값이 발생할 수 있습니다. 그러나
H 0tH0:HA: The groups have the same mean. The groups have different means.
H0H0가설은 어떤 의미에서는 "지루하다"고 연구자들은 일반적으로 실제로 존재하지 않는 그룹들간에 차이를 발견했다고 주장하는 "거짓 긍정적"상황을 피하는 것에 관심이있다. 따라서 귀무 가설 하에서는 거의 보이지 않는 경우에만 결과를 "유의 한"것으로 만 부르며, 일반적으로 비유도 임계 값은 5 %로 설정됩니다.
이것은 단일 테스트에 적용됩니다. 이제 여러 테스트를 실행하기로 결정하고 5 %의 확률로 각 테스트 에 대해 실수로 을 수락한다고 가정합니다 . 따라서 충분한 테스트를 수행하면 거의 확실하게 오류가 발생하기 시작합니다.H0
다양한 다중 수정 접근 방식은 개별 테스트를 위해 이미 선택한 공칭 오류율로 돌아갈 수 있도록하기위한 것입니다. 그들은 약간 다른 방식으로 그렇게합니다. Bonferroni , Sidak 및 Holm 절차 와 같이 Family-Wise Error Rate 를 제어하는 방법은 다음 과 같이 말합니다. "단일 테스트에서 5 %의 확률로 오류가 발생하기를 원했기 때문에 5 이상을 초과하지 않아야합니다. 모든 테스트에서 오류가 발생할 확률 % " False Discovery Rate 를 제어하는 방법대신 "한 번의 테스트로 최대 5 %의 시간이 잘못되어도 괜찮습니다. 따라서 여러 번의 테스트를 수행 할 때 '통화'의 5 %를 넘지 않아야합니다." (차이점을 보시겠습니까?)
이제
모든 가설 검정 의 가족 별 오류율을 제어하려고 시도했다고 가정합니다 . 본질적으로 귀무 가설을 거짓으로 기각 할 수있는 <5 % 확률을 원한다고 말하고 있습니다. 이것은 엄청나게 엄격한 임계 값을 설정하고 추론은 사실상 쓸모가 없지만 훨씬 더 시급한 문제가 있습니다. 전역 교정은 절대적으로 무의미한 "화합물 가설"을 테스트한다는 것을 의미합니다.
H1:Drug XYZ changes T-cell count ∧Grapes grow better in some fields ∧…∧…∧…∧…∧Men and women eat different amounts of ice cream
False Discovery Rate 보정으로 수치 문제는 그다지 심각하지 않지만 여전히 철학적으로 엉망입니다. 대신, 유전체학 연구 중 후보 유전자 목록 또는 스펙트럼 분석 중 일련의 시간-주파수 빈과 같은 관련 테스트의 "패밀리"를 정의하는 것이 합리적입니다. 특정 질문에 맞게 가족을 조정하면 실제로 제 1 종 오류를 직접적으로 해석 할 수 있습니다. 예를 들어, 자신의 게놈 데이터에서 FWER로 수정 한 p- 값 세트를보고 "이 유전자 중 하나라도 위양성 일 확률이 <5 %입니다"라고 말할 수 있습니다. 이것은 관심이없는 주제에 대해 관심이없는 사람들이 수행 한 추론을 다루는 성가신 보증보다 훨씬 낫습니다.
이것의 반대 측면은 그가 "가족"의 적절한 선택이 논쟁의 여지가 있고 약간 주관적이라는 것입니다 (모든 유전자가 한 가족입니까 아니면 내가 키나아제를 고려할 수 있습니까?) 가족을 정의하는 것을 거의 광범위하게 옹호했습니다.
베이 즈는 어때?
베이지안 분석은 Frequentist Type I / Type II 오류 프레임 워크에서 조금 벗어나려는 경우이 문제에 대한 일관된 대안을 제공합니다. 우리는 이전에 ... 비공식적으로 시작했습니다. 우리가 무언가를 배울 때마다, 그 정보는 사후 분포를 생성하기 위해 이전과 결합되며, 이는 다음에 우리가 무언가를 배울 때 우선이됩니다. 이것은 일관된 업데이트 규칙을 제공하며 두 가설 사이의 베이 즈 계수를 계산하여 특정 사물에 대한 다양한 가설을 비교할 수 있습니다. 아마도 모델의 큰 덩어리를 제외시킬 수 있습니다. 이는 특히 번거롭지 않습니다.
베이지안 방법에는 다중 비교 수정이 필요하지 않다는 영구적 인 의견이 있습니다. 불행하게도, 사후 확률은 잦은 사람들 (즉, 유형 I / II 오류에 관심이있는 사람들)에 대한 또 다른 테스트 통계 일뿐입니다. 그것들은 이러한 유형의 오류를 제어하는 특별한 속성을 가지고 있지 않습니다. 왜 그런가?
베이지안 반론은 우리가 지금 알아야 할 것에 집중해야 하므로 이러한 오류율은 중요하지 않다는 것입니다.
재현성
다중 비교 수정이 부적절하면 잘못되거나 재현 할 수없는 결과가 많이 발생하는 이유라고 생각하는 것 같습니다. 내 생각에는 다른 요소가 문제가 될 가능성이 높다는 것입니다. 분명한 것은 출판 압력이 사람들로 하여금 가설을 강조하는 실험 (즉, 나쁜 실험 설계)을 피하게한다는 것입니다.
p