좋은 질문입니다! 뒤로 물러서서 Bonferroni가 한 일과 Benjamini와 Hochberg가 대안을 개발해야하는 이유를 이해합시다.
최근에는 다중 테스트 수정이라는 절차를 수행하는 것이 필요하고 의무화되었습니다. 이는 전체 게놈 연관 연구 (GWAS)가 출현 한 유전학에서 높은 처리량 과학과 동시에 수행되는 테스트 수가 증가하기 때문입니다. 내 작업 영역이기 때문에 유전학에 대한 언급을 실례합니다. 우리가 동시에 1,000,000 테스트를 수행하는 경우 , 우리는 기대 (50) , 000 잘못된 반응을. 이것은 엄청나게 커서 중요성이 평가되는 수준을 통제해야합니다. bonferroni 보정, 즉 수락 임계 값 (0.05)을 독립 테스트 횟수 ( 0.05 / M )로 나눕니다.피= 0.0550 , 000 는 패밀리 현명한 오류율 ( F W E R )을 수정합니다.( 0.0 / M)에프여이자형아르 자형
FWER가 테스트 와이즈 에러율과 관련되기 때문이 참 ( ) 식에 의해 F W E R = 1 - ( 1 - T W E R ) M . 즉, 100 %에서 1을 뺀 값은 수행 된 독립 테스트 수의 거듭 제곱으로 올린 테스트 현명한 오류율을 뺍니다. 가정을 만들기가 ( 1 - 0.05 ) 1 / M = 1 - 0.05티여이자형아르 자형에프여이자형R = 1 - ( 1 - T여이자형R )엠 은TWER≈0.05( 1 − 0.05 )1 개 / M= 1 − 0.05엠 은 완전히 독립적 인 M 테스트를 위해 조정 된 합격 P 값입니다.티여이자형R ≈ 0.05엠
Benjamini와 Hochberg가했던 것처럼 지금 우리가 겪고있는 문제는 모든 테스트가 완전히 독립된 것은 아니라는 것입니다. 강력하고 유연한 비록 따라서, 페로 니 보정,이다 과교정 . 연결 불균형이라고 불리는 경우에 두 개의 유전자가 연결된 유전학의 경우를 고려하십시오. 즉, 한 유전자에 돌연변이가 있으면 다른 유전자가 발현 될 가능성이 높습니다. 본 페로 니 보정에서는 다음과 같이 가정 되지만, 이들은 독립적 인 테스트가 아닙니다 . 여기서 우리는 P 값을 M으로 나누는 것이 실제로 서로 영향을 미치는 독립적 인 테스트로 인해 인위적으로 낮은 임계 값을 생성하고 실제 상황에 비해 너무 큰 M을 생성하는 것을보기 시작합니다. 독립적이지 않습니다.
Benjamini와 Hochberg가 제안하고 Yekutieli (및 기타 여러 기관)가 보강 한 절차는 Bonferroni보다 자유롭고 실제로 Bonferroni 교정은 현재 가장 큰 연구에서만 사용됩니다. FDR에서 우리는 테스트의 일부에 상호 의존성을 가정하기 때문에 M이 너무 크고 비현실적이며 실제로 우리가 걱정하는 결과를 제거하기 때문입니다. 따라서 독립적이지 않은 1000 개의 테스트의 경우 실제 M은 1000이 아니라 종속성으로 인해 더 작은 것입니다. 따라서 0.05를 1000으로 나누면 임계 값이 너무 엄격하여 관심을 가질만한 일부 테스트를 피할 수 있습니다.
의존성을 통제하는 배후의 역학에 관심이 있는지 확실하지 않지만 Yekutieli 논문을 참조로 연결했습니다. 또한 귀하의 정보와 호기심을 위해 몇 가지 다른 것들을 첨부하겠습니다.
내가 잘못 표현한 것이 있으면 알려주세요.
~ ~ ~
참고 문헌
긍정적 인 의존성에 Yekutieli 종이 - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf
(1.3-문제 참조)
Bonferroni 및 기타 관심 사항에 대한 설명-Nature Genetics review. 대규모 유전자 연구에서 통계적 검정력 및 유의성 검정-Pak C Sham 및 Shaun M Purcell
(상자 3 참조)
http://en.wikipedia.org/wiki/Familywise_error_rate
편집하다:
이전 답변에서 나는 긍정적 인 의존성을 직접 정의하지 않았으며, 이것이 요청 된 것입니다. Yekutieli 논문에서 섹션 2.2
은 긍정적 인 의존성이라는 제목으로, 매우 상세하게 제안합니다. 그러나 나는 그것을 좀 더 간결하게 만들 수 있다고 생각합니다.
처음에이 논문은 긍정적 인 의존성에 대해 이야기하는 것으로 시작하는데, 그것을 해석 할 수 있지만 구체적이지 않은 모호한 용어로 사용합니다. 증명을 읽으면 긍정적 인 의존성으로 언급 된 것을 PRSD라고하며 이전에 "집합 에서 각각에 대한 긍정적 인 회귀 의존성"으로 정의됩니다 . I 0 은 귀무 가설 (0)을 올바르게 지원하는 테스트의 하위 집합입니다. PRDS는 다음과 같이 정의됩니다.나는0나는0
엑스나는0엑스나는0엑스나는0엑스엑스
피
요약하면, 양의 종속성 속성은 실제 널 테스트 통계 집합에 대한 전체 테스트 통계 집합의 양의 회귀 종속성 속성이며 FDR을 0.05로 제어합니다. 따라서 P 값이 상향식 (스텝 업 절차)에서 갈수록 널 세트의 일부가 될 가능성이 높아집니다.
공분산 행렬에 대한 의견에 대한 나의 이전의 대답은 정확하지 않고 조금 모호합니다. 나는 이것이 조금 더 도움이되기를 바랍니다.