Benjamini-Hochberg FDR 절차가 작동하는 이유를 직관적으로 설명 할 수 있습니까?


14

Benjamini와 Hochberg (1995)의 절차가 실제로 FDR (False Discovery Rate)을 제어하는 ​​이유를 설명하는 간단한 방법이 있습니까? 이 절차는 매우 우아하고 간결하지만 독립적 인 이유 ( 1995 년 논문 의 부록에 나와 있음)에 대한 증거는 접근하기가 쉽지 않습니다.


4
내 의견으로는, 루즈 벨트 컨트롤의 증거가 여기에 제시된은 (당신이 정리 2의 증거를 찾고 주) 더 직관적입니다 : citeseerx.ist.psu.edu/viewdoc/...는 이 인수 그냥 알았어에 의존 우리가 선택적 정지 정리를 사용할 수 있습니다.
user795305

3
여러 비교 문제와이를 해결하기 위해 사용 된 조정 방법의 역사 및 논리적 개발에 대해 YouTube에서 Benjamini좋은 강의가 있습니다.
Alexis

Ramdas et al. (2017) 은 다수의 여러 테스트 방법을 통합하고 일반화하는 매우 최근의 논문이며, 발의안 1 (c)는 Benjamini & Hochberg (1995)의 정리 1을 암시합니다. 이 증거는 LDP 1 (c)를 FDP의 기대에 맞추기 위해 적용되며,이 Lemma 자체는 부록의 매우 기본적인 다변량 미적분에 의해 입증되었습니다.
daniel.s

2
YouTube의 StatQuest 채널에서 찾은 또 다른 직관적 인 설명은 다음과 같습니다. youtube.com/watch?v=K8LQSvtjcEo
RobertF

답변:


2

다음은 R그림을 생성하는 코드입니다. 순서에 따라 15 개의 시뮬레이션 된 p- 값이 표시됩니다. 그래서 그들은 오름차순 포인트 패턴을 형성합니다. 빨간색 / 보라색 선 아래의 점은 0.1 또는 0.2 수준에서 중요한 테스트를 나타냅니다. FDR은 선 아래의 검은 점 수를 선 아래의 총 점 수로 나눈 값입니다.

x0 <- runif(10)      #p-values of 10 true null hypotheses. They are Unif[0,1] distributed.
x1 <- rbeta(5,2,30)  # 5 false hypotheses, rather small p-values
xx <- c(x1,x0)
plot(sort(xx))
a0 <- sort(xx)
for (i in 1:length(x0)){a0[a0==x0[i]] <- NA}
points(a0,col="red")
points(c(1,15), c(1/15 * 0.1 ,0.1), type="l", col="red")
points(c(1,15), c(1/15 * 0.2 ,0.2), type="l", col="purple")

이것이 순서 p- 값의 분포가 갖는 모양에 대해 약간의 느낌을 줄 수 있기를 바랍니다. 선이 정확하고 예를 들어 일부 비 유형 곡선이 아니라는 것은 주문 분포의 모양과 관련이 있습니다. 명시 적으로 계산해야합니다. 실제로이 라인은 보수적 인 솔루션 일뿐입니다.


1
set.seed(<some number>)R을 읽지 않는 사람들을 위해 결과 수치를 추가 하고 게시 하시겠습니까 ?
gung-모니 티 복원

이 코드를 실행할 때 포인트가 라인 아래로 떨어지지
않습니다
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.