Benjamini & Hochberg (1995)와 Benjamini & Yekutieli (2001) 허위 발견 률 절차의 실제 차이점은 무엇입니까?


34

저의 통계 프로그램은 Benjamini & Hochberg (1995)와 Benjamini & Yekutieli (2001) FDR (False Discovery Rate) 절차를 모두 구현합니다. 나는 나중의 논문을 읽기 위해 최선을 다했지만, 그것은 수학적으로 밀도가 높으며 절차의 차이점을 이해한다고 합리적으로 확신하지 못한다. 통계 프로그램의 기본 코드에서 실제로는 다르며 후자는 FDR과 관련하여 언급 한 수량 q를 포함하지만 파악할 수는 없다는 것을 알 수 있습니다.

Benjamini & Hochberg (1995) 절차와 Benjamini & Yekutieli (2001) 절차를 선호 할 이유가 있습니까? 그들은 다른 가정을 가지고 있습니까? 이러한 접근 방식의 실제 차이점은 무엇입니까?

Y. Benjamini, Y. 및 Hochberg, Y. (1995). 오 탐지 제어 : 여러 테스트에 대한 실용적이고 강력한 접근 방식. 왕립 통계 학회지 시리즈 B, 57, 289–300.

Benjamini, Y. 및 Yekutieli, D. (2001). 종속성이있는 다중 테스트에서 잘못된 발견 비율 제어 통계 연표 29, 1165–1188.

1999 년 논문은 아래의 주석에서 참조 : Yekutieli, D., & Benjamini, Y. (1999) 상관 된 테스트 통계에 대한 여러 테스트 절차를 제어하는 ​​리샘플링 기반의 잘못된 발견 비율. 통계 계획 및 추론 저널, 82 (1), 171-196.


2001 년 논문은 FDR (1995)의 특성에 따라 달라진다고 생각했다. Yekutieli와 Benjamini (1999)는 다른 FDR 절차를 수립했다. 당신이 찾고있는 기회가 있습니까?
Julieth

@julieth : 초록 만 읽었을 때 2001 년 논문에 대한 나의 감각 이었지만, 논문의 공식 (예 : 27 ~ 30)은 q라고 불리는 양을 포함하는 것 같습니다. 다시 한 번,이 1999 년 논문도 인용합니다. 내 생각은 1999 년 논문이 (샘플을 보면) 분명히 리샘플링 접근법을 구현한다는 것이 내 통계 프로그램이하는 일이 아닙니다 (R; p.adjust) ...하지만 잘못되었을 수 있습니다.
russellpierce

1
2001 년 논문이 끝났을 때 1999 년 논문이 인용되었으며 "마침내, 위의 문제에 대처하고 동시에 의존성에 관한 정보를 활용하는 Yekutieli와 Benjamini (1999)의 리샘플링 기반 절차를 상기하십시오. 리샘플링 기반 절차는 더 복잡하고 FDR 제어에 근접 할뿐 아니라 더 강력합니다. " ... 2001 년 논문은 폐쇄 형 계산 솔루션을 제공한다고 생각합니다. 이것이 통계 프로그램이 구현하는 것입니다.
russellpierce

1
좋아, 그래서 당신은 p.adjust를 사용하고 있습니다. 99 장의 용지는 언급 한대로 완전히 다릅니다. 나는 항상 p.adjust에서 BY 옵션을 보았고주의를 기울이지 않았습니다. 2001 년 논문은 일반적으로 FDR의 증거와 '긍정적 인 회귀 의존성'과 관련하여 인용됩니다. 나는 다른 견적자를 인용하는 것으로 보지 못했지만 아마도 거기에있을 것입니다. 다시 읽어야 할 것 같습니다.
Julieth

답변:


21

Benjamini와 Hochberg (1995)는 잘못된 발견 률을 소개했습니다. Benjamini와 Yekutieli (2001)는 추정자가 어떤 형태의 의존 하에서 유효하다는 것을 증명했다. 의존성은 다음과 같이 발생할 수 있습니다. t- 검정에 사용 된 연속 변수와 이와 관련된 다른 변수를 고려하십시오. 예를 들어, BMI가 두 그룹에서 다른지, 허리 둘레가이 두 그룹에서 다른지 테스트합니다. 이러한 변수는 서로 관련되어 있기 때문에 결과 p- 값도 서로 관련됩니다. Yekutieli와 Benjamini (1999)는 또 다른 FDR 제어 절차를 개발하였으며, 이는 널 분포를 리샘플링함으로써 일반적인 의존 하에서 사용될 수있다. 비교는 널 순열 분포와 관련이 있기 때문에, 실제 양수의 총 수가 증가함에 따라이 방법은 더욱 보수적입니다. 진정한 긍정적 인 수가 증가함에 따라 BH 1995도 보수적 인 것으로 나타났습니다. 이를 개선하기 위해 Benjamini와 Hochberg (2000)는 적응 형 FDR 절차를 도입했다. 이를 위해서는 매개 변수 (널 비율)의 추정이 필요하며 이는 Storey의 pFDR 추정기에서도 사용됩니다. Storey는 그의 방법이 더 강력하고 1995 년 절차의 보수적 인 성격을 강조한다고 비교하고 주장한다. Storey는 또한 의존적 인 결과와 시뮬레이션을 가지고 있습니다.

위의 모든 테스트는 독립 상태에서 유효합니다. 문제는 이러한 추정이 어떤 종류의 독립에서 벗어날 수 있는가이다.

나의 현재 생각은 당신이 너무 많은 진정한 긍정을 기대하지 않으면 BY (1999) 절차는 배포 기능과 의존성을 통합하기 때문에 훌륭하다는 것입니다. 그러나 구현을 알지 못합니다. Storey의 방법은 약간의 의존성을 가진 많은 진정한 긍정적 인 것들을 위해 고안되었습니다. BH 1995는 가족 별 오류율에 대한 대안을 제공하며 여전히 보수적입니다.

Benjamini, Y 및 Y Hochberg. 독립 통계를 사용한 다중 테스트에서 허위 발견 률의 적응 제어에 대해 교육 및 행동 통계 저널, 2000.


고마워요! 다음과 같은 요점 / 문제를 명확히하기 위해 질문을 수정할 수 있습니까? "널 분포 재 샘플링"은 1999 년 논문입니까? 2000 년 논문에 대한 인용을 제공 하시겠습니까? p.adjust에 익숙한 것 같습니다. 실제로 BY 절차를 구현하고 있습니까? 가설 검정이 종속적이지 않을 때 BH를 사용해야합니까? 가설 검정이 종속적 인 것으로 간주되는 원인은 무엇입니까? -이러한 질문 중 하나라도 현재 범위를 벗어나 새로운 질문이 있으면 알려주십시오.
russellpierce

p.adjust에는 (BH 및 BY) 옵션이 있습니다. 그러나 나는 이것들이 같다고 생각했기 때문에 뭔가를 놓쳤다.
Julieth

그리고 기본 코드도 다르므로 (확인했습니다) 다른 숫자를 생성합니다.
russellpierce

p.adjust가 BY 인수로 수행한다고 생각하는 절차는 무엇입니까? 나는 그것이 1999 년 절차라고 생각하지 않습니다. 기본 코드는 pmin (1, cummin (q * n / i * p [o])) [ro]입니다. BH는 pmin (1, 커민 (n / i * p [o])) [ro]이다. 따라서 그것들은 q에서만 다릅니다. 그것은 sum (1 / (1 : n))입니다. 여기서 n = p 값의 수입니다. o와 ro는 p 값을 함수의 숫자 순서대로
내린

1
따라서 새로운 답변이 나오지 않으므로이 답변을 수락하고 내 이해를 요약하겠습니다. p.adf에 대한 조정이 잘못되었을 수 있습니다. 수행되는 작업은 리샘플링이 아닙니다. BH, 2000은 적응 형 FDR 절차를 도입했으며, 이는 BY 코드에 나타나는 q 일 수있는 null 비율의 추정을 포함합니다. 그 사이에, "BY"옵션을 사용할 때 사용 된 실제 절차를 반영하고 "BY"가 실제로 Benjamini & Hochberg를 구현할 수 있음을 알고있는 것처럼 p.adjust를 직접 인용하는 것이 현명한 것으로 보입니다. 2000.
russellpierce

5

p.adjust는 BY에 대해 오해하지 않습니다. 논문의 정리 1.3 (p.1182의 섹션 5에서 증명)을 참조한다 :

Benjamini, Y. 및 Yekutieli, D. (2001). 종속성이있는 다중 테스트에서 잘못된 발견 비율 제어 통계 연표 29, 1165–1188.

이 백서에서는 여러 가지 다른 조정에 대해 설명하므로 p.adjust ()에 대한 도움말 페이지 (작성 당시)에 대한 참조가 다소 모호합니다. 이 방법은 가장 일반적인 의존 구조 하에서 명시된 속도로 FDR을 제어 할 수있다. Christopher Genovese의 슬라이드에는 다음과 같은 유익한 의견이 있습니다. www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf BY 2001 논문의 정리 1.3 방법을 참조하여 슬라이드 37에 대한 의견에 주목하십시오. p.adjust ()를 사용한 'BY'] : "불행히도 이것은 일반적으로 Bonferroni보다 훨씬 보수적입니다."

수치 예 : method='BY' vsmethod='BH'

다음은 Benjamini와 Hochberg (2000) 논문에서 표 2의 2 열에서 p- 값에 대해 R의 p.adjust () 함수를 사용하여 method = 'BY'를 method = 'BH'와 비교합니다.

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

참고 : BY 값과 BH 값을 연결하는 승수는 . 여기서 은 p- 값의 수입니다. 승수는 예를 들어 m = 30, 34, 226, 1674, 12365 값입니다.mi=1m(1/i)m

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (mult, paste (c ( 'm =', rep ( '', 5)), c (11, 30, 34, 226, 1674, 12365))) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

위의 예에서 = 34, 승수가 4.118인지 확인하십시오.m

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.