답변:
정말 좋은 질문이라고 생각합니다. 너무 많은 사람들이 Benjamini-Hochberg 절차 (약어 BH; 아마도 FDR을 제어하는 가장 인기있는 절차)를 블랙 박스로 사용합니다. 실제로 통계에 대한 기본 가정이 있으며 p- 값의 정의에 숨겨져 있습니다!
잘 정의 된 p- 값 경우 , 귀무 가설 하에서 가 균일하게 분포된다 ( ). 때로는 일 수도 있습니다. 즉, 는 확률 적으로 균일보다 작지만 절차가 더 보수적이므로 여전히 유효합니다. 따라서 t- 검정 또는 실제로 선택한 검정을 사용하여 p- 값을 계산하면 귀무 가설 하의 분포에 대한 정보를 제공하게됩니다.
그러나 여기서 나는 귀무 가설에 대해 계속 이야기하고 있음을 주목하십시오. 따라서 당신이 참 긍정의 기본 요율에 대한 지식에 대해 언급 한 것은 필요 하지 않습니다. 당신은 거짓 긍정의 기본 요율에 대한 지식 만 필요합니다! 왜 이런거야?
이 모든 기각 된 가설의 수를 나타내고 가 오 탐지를 보자 .
따라서 FDR을 추정하려면 , 를 추정 할 수있는 방법이 필요합니다 . 이제 모든 p- 값 를 거부하는 결정 규칙을 살펴 보겠습니다 . 표기법에서이를 분명히하기 위해 해당 절차의 해당 수량 / 임의 변수에 대해 를 작성합니다.
이후 거부의 총 수의 단지 기대, 당신은 unbiasedly 당신이 관찰 거부, 그래서 수로 추정 할 수있다 즉, 얼마나 많은 p- 값이 인지 세는 것 입니다.
이제 어떻습니까? 그럼 가정 당신의 다음 균일하여 귀무 가설이다 (또는 하위 균일 성) 당신이 얻을 널에서의 p 값의 합계 가설을 :
그러나 우리는 여전히 을 모르지만 이라는 것을 알고 있으므로 보수적 인 상한은 입니다. 따라서 우리는 오 탐지 수의 상한이 필요하기 때문에 그 분포를 알면 충분합니다! 이것이 바로 BH 절차가하는 일입니다.
따라서 Aarong Zeng의 "BH 절차는 주어진 수준 q에서 FDR을 통제하는 방법입니다. FDR을 추정하는 것이 아닙니다"는 잘못된 것이 아니라도 오해의 소지가 있습니다! BH 절차는 실제로 수행 각각의 주어진 임계 값의 FDR을 추정 . 그런 다음 추정 FDR이 미만이되도록 가장 큰 임계 값을 선택합니다 . 실제로 가설 의 "조정 된 p- 값" 은 본질적으로 임계치 (등장 화까지) 에서의 FDR의 추정치 일 뿐이다 . 표준 BH 알고리즘이이 사실을 약간 숨기고 있다고 생각하지만이 두 가지 접근 방식의 동등성을 쉽게 보여줄 수 있습니다 (복수 테스트 문헌에서 "동등성 정리"라고도 함).
마지막 으로, 데이터로부터 을 추정하는 Storey의 절차와 같은 방법 이 있습니다. 이것은 조금씩 전력을 증가시킬 수 있습니다. 또한 원칙적으로 맞습니다. 대안 (실제로 긍정적 인 기본 요율)에 따라 분포를 모형화하여보다 강력한 절차를 얻을 수 있습니다. 그러나 지금까지 다중 테스트 연구는 주로 전력을 최대화하기보다는 제 1 종 오류 제어를 유지하는 데 중점을 두었습니다. 하나의 어려움은 많은 경우에, 당신의 진정한 대안 각각이 다른 대안 적 분포 (예를 들어, 다른 가설에 대한 다른 검정력)를 가지지 만, 널 (null) 하에서 모든 p- 값은 동일한 분포를 갖는 것입니다. 이것은 진정한 양의 비율의 모델링을 더욱 어렵게 만듭니다.
@air에서 제안한 바와 같이 Benjamini-Hochberg (BH) 절차는 FDR 제어를 보장합니다. 추정하는 것을 목표로하지 않습니다. 따라서 테스트 통계 간에는 약한 의존성 가정이 필요합니다. [1,2]
FDR 추정을 목표로하는 방법 (예 : 3,4,5)은 추정 과정에서 생성 과정에 대한 몇 가지 가정이 필요합니다. 그들은 일반적으로 테스트 통계가 독립적이라고 가정합니다. 또한 테스트 통계의 널 분포에 대해 가정합니다. 따라서 독립 가정과 함께이 널 분포로부터의 이탈은 효과에 기인 할 수 있으며 FDR이 추정 될 수 있습니다.
이러한 아이디어는 반 감독 소설 탐지 문헌에 다시 나타납니다. [6].
[1] Benjamini, Y. 및 Y. Hochberg. "거짓 발견 속도 제어 : 여러 테스트에 대한 실용적이고 강력한 접근 방식" 저널 로얄 통계 학회 시리즈 B 57 (1995) : 289–289.
[2] Benjamini, Y. 및 D. Yekutieli. "종속성에 따른 다중 테스트에서 잘못된 발견 비율 제어." 통계 자료 29, no. 4 (2001) : 1165–88.
[3] Storey, JD“거짓 발견 률에 대한 직접적인 접근.” 왕립 통계 학회지 시리즈 B 64, no. 3 (2002) : 479–98. doi : 10.1111 / 1467-9868.00346.
[4] Efron, B.“Microarrays, 경험적 베이 및 두 그룹 모델” 통계 과학 23, no. 1 (2008) : 1–22.
[5] Jin, Jiashun 및 T. Tony Cai. "대규모 다중 비교에서 Null 추정 및 Null이 아닌 효과의 비율." 미국 통계 협회 저널 102, no. 478 (2007 년 6 월 1 일) : 495–506. doi : 10.1198 / 016214507000000167.
[6] Claesen, Marc, Jesse Davis, Frank De Smet 및 Bart De Moor. “긍정적이고 레이블이없는 데이터 만 사용하여 이진 분류기 평가.” arXiv : 1504.06837 [cs, Stat], 2015 년 4 월 26 일. http://arxiv.org/abs/1504.06837 .
실제 기본 모델을 알 수없는 경우 FDR을 계산할 수 없지만 순열 테스트를 통해 FDR 값을 추정 할 수 있습니다 . 기본적으로 순열 테스트 절차는 순열로 결과 변수 벡터를 변경하여 가설 테스트를 여러 번 수행하는 것입니다. 또한 표본의 순열을 기반으로 수행 할 수 있지만 이전의 순열과 같이 일반적인 것은 아닙니다.
이 논문은 여기 FDR 추정을위한 표준 순열 절차를 검토하고 또한 새로운 FDR 추정을 제안했다. 귀하의 질문을 해결할 수 있어야합니다.