FDR 제어를위한 일반적인 방법을 사용하기위한 조건으로 "긍정적 종속성"의 의미


36

Benjamini와 Hochberg 는 FDR (False Discovery Rate)을 제어하기위한 첫 번째 (아직 가장 널리 사용되는) 방법을 개발했습니다.

각기 다른 비교를 위해 P 값을 묶어 시작하고 FDR을 지정된 값 (예 : 10 %)으로 제어하여 "발견"이라고 할 정도로 낮은 값을 결정하려고합니다. 일반적인 방법의 한 가정은 비교 세트가 독립적이거나 "긍정적 의존성"을 가지고 있지만 P 값 세트를 분석하는 맥락에서 해당 문구가 무엇을 의미하는지 정확히 알 수는 없다는 것입니다.


1
내 답변, 하비에게 현상금을 수여 해 주셔서 감사합니다! 그것이 당신을 위해이 문제를 해결한다고 말하겠습니까, 아니면 더 자세한 설명을 찾고 있습니까? 아직 답변을 수락하지 않으 셨으므로 설명을 드리고자합니다. 감사. 아마도 당신은 여전히 ​​당신이 명확히하고 싶은 것을 명확하게하기 위해 Q를 주석하거나 편집 할 수 있습니다.
amoeba는

2
@아메바. 현상금 마감일이 나에게 달려 있었고 당신의 대답은 지금까지 최고였습니다. 솔직히 그 순간에 현상금을주는 것도 대답을 받아들이지 않았다는 것은 결코 나에게 일어나지 않았습니다. 그러나 나는 그것들이 다르다는 것을 알고 있습니다 (제 트랙 지연을 비난 할 것입니다). 그러나 완전한 대답은 실제로 P 값 세트가 긍정적 인 의존성을 가지지 않고 현실적인 사례를 포함해야합니다. 나는 누군가가 두 종류의 예를 모두 줄 수 있기를 희망하면서 일주일 동안 대답을 받아들이지 않을 것이므로 그 의미는 분명합니다.
Harvey Motulsky 2016 년

이것은 실제로 만족스러운 예는 아니지만 상관 변수에 대한 단측 테스트 수행에 대해 긍정적 인 의존성이 있거나없는 p 값을 생각해내는 것이 실제로 쉽습니다. 단측 대안 (A> 0 및 B> 0)에 대해 A = 0인지 여부와 B = 0인지 여부를 테스트한다고 가정합니다. 또한 B가 A에 의존한다고 상상해보십시오. 예를 들어, 인구가 남성보다 여성이 많고 고환보다 난소가 더 많은지 알고 싶다고 상상해보십시오. 첫 번째 질문의 p- 값을 분명히 아는 것은 두 번째 질문에 대한 우리의 기대치를
바꾼다

고마워, 하비 나는 당신이 내 대답 (!!)을 받아들이도록 강요하지 않고이 스레드에서 어떤 종류의 대답을 찾고 있는지, 그리고 당신이 여전히 명확하게하고 싶은 것을 분명히하기 위해 노력하고 있다는 것이 분명하기를 바랍니다. 나는 실제로이 주제에 대한 전문가가 아니며 이해하려고합니다.
amoeba는

두 p- 값은 같은 방향으로 변경되며 이것이 PRD입니다. 그러나 대신 인구 2가 난소보다 더 많은 고환을 가지고 있다는 두 번째 가설을 테스트하면 첫 번째 p- 값이 증가함에 따라 두 번째 p- 값에 대한 기대치가 감소합니다. 이것은 PRD가 아닙니다.
Jacob Socolar

답변:


20

질문에서와 다른 답변에 귀하의 의견 특히, 당신이 주로 여기에 "큰 그림"에 대해 혼동되는 날 것으로 보인다 : 즉, 무엇을 "긍정적 인 의존성은"이 상황에서 참조 전혀 - 반대로 어떤 PRDS 조건의 기술적 의미입니다. 큰 그림에 대해 이야기하겠습니다.

큰 그림

당신이 테스트 상상해 귀무 가설을, 그들 모두에 해당 상상. 각각의 -values 랜덤 변수이고; 또 다시 실험을 반복하면 전혀 다른 얻을 것이다 하나의 분포에 대해 이야기 할 수 있도록, - 값마다 (널 이하) -values. 모든 테스트 에서 널 (null) 아래 의 분포는 균일해야 한다는 것이 잘 알려져 있습니다. 따라서 다중 테스트의 경우 모든 한계 분포 가 균일합니다.N p p p p N p

모든 데이터와 모든 테스트가 서로 독립적 인 경우 의 관절 차원 분포도 균일합니다. 예를 들어 많은 독립적 인 것들이 테스트되는 전형적인 "젤리 빈"상황에서 이것은 사실 일 것입니다 :N p

녹색 젤리 콩

그러나 그렇게 할 필요는 없습니다. 쌍은 원칙적으로 양 또는 음으로 상관되거나보다 복잡한 방식으로 종속 될 수 있습니다. 네 그룹 사이의 평균 차이 쌍을 모두 테스트 해보십시오. 이것은 테스트입니다. 6 개의 만으로 균일하게 분포됩니다. 그러나 그것들은 모두 양의 상관 관계가 있습니다. 만약 주어진 시도에서 그룹 A가 우연히 평균이 낮다면, A-vs-B 비교는 낮은 값을 산출 할 수 있습니다 (이것은 오탐). 그러나 이러한 상황에서 A-vs-D뿐만 아니라 A-vs-C도 낮은 값을 산출 할 가능성이 높습니다 . 그래서N은 = 4 3 / 2 = 6 , P , P의 P의 P를=4/2=6-값은 명백히 독립적이지 않으며, 또한 서로 양의 상관 관계가 있습니다.

이것은 비공식적으로 "긍정적 의존성"이 말하는 것입니다.

이것은 여러 테스트에서 일반적인 상황 인 것 같습니다. 다른 예는 서로 관련된 여러 변수의 차이를 테스트하는 것입니다. 그중 하나에서 중요한 차이를 얻으면 다른 하나에서 중요한 차이를 얻을 가능성이 높아집니다.

값이 "부정적으로 의존적"인 자연스러운 예를 생각해 내는 것은 까다 롭습니다 . @ user43849는 위의 의견에서 일방적 테스트의 경우 쉽다는 것을 언급했습니다.

단측 대안 (A> 0 및 B> 0)에 대해 A = 0인지 여부와 B = 0인지 여부를 테스트한다고 가정합니다. 또한 B가 A에 의존한다고 상상해보십시오. 예를 들어, 인구가 남성보다 여성이 많고 고환보다 난소가 더 많은지 알고 싶다고 상상해보십시오. 첫 번째 질문의 p- 값을 분명히 아는 것은 두 번째 질문에 대한 p- 값에 대한 기대치를 변화시킵니다. 두 p- 값은 같은 방향으로 변경되며 이것이 PRD입니다. 그러나 대신 인구 2가 난소보다 더 많은 고환을 가지고 있다는 두 번째 가설을 테스트하면 첫 번째 p- 값이 증가함에 따라 두 번째 p- 값에 대한 기대치가 감소합니다. 이것은 PRD가 아닙니다.

그러나 지금까지 포인트 null이있는 자연스러운 예를 생각해 낼 수 없었습니다.


이제 Benjamini-Hochberg 절차의 유효성을 보장하는 "긍정적 의존성"의 정확한 수학적 공식은 다소 까다 롭습니다. 다른 답변에서 언급했듯이 주요 참조는 Benjamini & Yekutieli 2001 ; 그들은 PRDS 속성 ( "하위 집합에서 각각에 대한 양성 회귀 의존성")이 Benjamini-Hochberg 절차를 수반 함을 보여줍니다. 이는 PRD ( "양성 회귀 의존성") 속성의 완화 된 형태이며, 이는 PRD가 PRDS를 암시하며 따라서 Benjamini-Hochberg 절차도 수반 함을 의미합니다.

PRD / PRDS의 정의는 @ user43849의 답변 (+1) 및 Benjamini & Yekutieli 논문을 참조하십시오. 정의는 다소 기술적이며 이해가 잘되지 않습니다. 실제로 B & Y는 몇 가지 다른 관련 개념들도 언급했다 : 다변량 총 2 차 양성 (MTP2) 및 긍정적 연관성. B & Y에 따르면 다음과 같이 관련되어 있습니다 (다이어그램은 내 것입니다).

PRD, PRDS, MTP2 및 PA

MTP2는 BH 절차의 정확성을 보장하는 PRDS를 의미하는 PRD를 의미합니다. PRD는 또한 PA를 의미하지만 PA PRDS입니다.


네거티브 의존성 예로들 수 사후 짝 가령, 다음 테스트 세 그룹의 ANOVA 일방향 있지만 ˉ X B < μ B 반면 ˉ Xμˉ X Cμ C , 그렇게하는 동안 P의 경우 →  대에  B가이하 (거부 할 가능성이 있기 때문에 아래 H 0 | ˉ X - ˉμ에이<μ<μ엑스¯<μ엑스¯에이μ에이엑스¯μ에이 vs. H0 )하지만 종속성으로 인해P는B 대 C는이고가능성 거부? |엑스¯에이엑스¯|<|엑스¯엑스¯| vs. 
Alexis

1
@Alexis 나는이 라인을 따라 생각하고 있었지만 null 아래에서 일어나는 일을 고려해야하기 때문에 이것이 효과가 있다고 생각하지 않습니다 . 이 경우 null은 이므로 추론이 무너집니다. μ에이=μ=μ
amoeba 말한다 Reinstate Monica

따라서 부정적인 의존성 상황을 생각하기 어려운 경우 Benjamini-Hochberg 절차는 독립 그룹에 대한 옴니버스 귀무 가설을 기각 한 사후 쌍별 테스트 와 같은 상황에 유효합니다 (예 : ANOVA, Cochran 's Q, Kruskal- 월리스 등)?
Alexis

@Alexis 나는 이것이 맞다고 믿는다. 나는 아직도 부정적인 종속성이 자연 예를 마련하기 위해 노력하고 ...
아메바는 분석 재개 모니카 말한다

록! 당신은 간다! :) ( "여자"라는 단어의 성별이없는 의미의 경우;).
Alexis

18

좋은 질문입니다! 뒤로 물러서서 Bonferroni가 한 일과 Benjamini와 Hochberg가 대안을 개발해야하는 이유를 이해합시다.

최근에는 다중 테스트 수정이라는 절차를 수행하는 것이 필요하고 의무화되었습니다. 이는 전체 게놈 연관 연구 (GWAS)가 출현 한 유전학에서 높은 처리량 과학과 동시에 수행되는 테스트 수가 증가하기 때문입니다. 내 작업 영역이기 때문에 유전학에 대한 언급을 실례합니다. 우리가 동시에 1,000,000 테스트를 수행하는 경우 , 우리는 기대 (50) , 000 잘못된 반응을. 이것은 엄청나게 커서 중요성이 평가되는 수준을 통제해야합니다. bonferroni 보정, 즉 수락 임계 값 (0.05)을 독립 테스트 횟수 ( 0.05 / M )로 나눕니다.=0.0550,000 는 패밀리 현명한 오류율 ( F W E R )을 수정합니다.(0.05/)에프이자형아르 자형

FWER가 테스트 와이즈 에러율과 관련되기 때문이 참 ( ) 식에 의해 F W E R = 1 - ( 1 - T W E R ) M . 즉, 100 %에서 1을 뺀 값은 수행 된 독립 테스트 수의 거듭 제곱으로 올린 테스트 현명한 오류율을 뺍니다. 가정을 만들기가 ( 1 - 0.05 ) 1 / M = 1 - 0.05이자형아르 자형에프이자형아르 자형=1(1이자형아르 자형)TWER0.05(10.05)1/=10.05 은 완전히 독립적 인 M 테스트를 위해 조정 된 합격 P 값입니다.이자형아르 자형0.05

Benjamini와 Hochberg가했던 것처럼 지금 우리가 겪고있는 문제는 모든 테스트가 완전히 독립된 것은 아니라는 것입니다. 강력하고 유연한 비록 따라서, 페로 니 보정,이다 과교정 . 연결 불균형이라고 불리는 경우에 두 개의 유전자가 연결된 유전학의 경우를 고려하십시오. 즉, 한 유전자에 돌연변이가 있으면 다른 유전자가 발현 될 가능성이 높습니다. 본 페로 니 보정에서는 다음과 같이 가정 되지만, 이들은 독립적 인 테스트가 아닙니다 . 여기서 우리는 P 값을 M으로 나누는 것이 실제로 서로 영향을 미치는 독립적 인 테스트로 인해 인위적으로 낮은 임계 값을 생성하고 실제 상황에 비해 너무 큰 M을 생성하는 것을보기 시작합니다. 독립적이지 않습니다.

Benjamini와 Hochberg가 제안하고 Yekutieli (및 기타 여러 기관)가 보강 한 절차는 Bonferroni보다 자유롭고 실제로 Bonferroni 교정은 현재 가장 큰 연구에서만 사용됩니다. FDR에서 우리는 테스트의 일부에 상호 의존성을 가정하기 때문에 M이 너무 크고 비현실적이며 실제로 우리가 걱정하는 결과를 제거하기 때문입니다. 따라서 독립적이지 않은 1000 개의 테스트의 경우 실제 M은 1000이 아니라 종속성으로 인해 더 작은 것입니다. 따라서 0.05를 1000으로 나누면 임계 값이 너무 엄격하여 관심을 가질만한 일부 테스트를 피할 수 있습니다.

의존성을 통제하는 배후의 역학에 관심이 있는지 확실하지 않지만 Yekutieli 논문을 참조로 연결했습니다. 또한 귀하의 정보와 호기심을 위해 몇 가지 다른 것들을 첨부하겠습니다.

내가 잘못 표현한 것이 있으면 알려주세요.

~ ~ ~

참고 문헌

긍정적 인 의존성에 Yekutieli 종이 - http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf

(1.3-문제 참조)

Bonferroni 및 기타 관심 사항에 대한 설명-Nature Genetics review. 대규모 유전자 연구에서 통계적 검정력 및 유의성 검정-Pak C Sham 및 Shaun M Purcell

(상자 3 참조)

http://en.wikipedia.org/wiki/Familywise_error_rate

편집하다:

이전 답변에서 나는 긍정적 인 의존성을 직접 정의하지 않았으며, 이것이 요청 된 것입니다. Yekutieli 논문에서 섹션 2.2은 긍정적 인 의존성이라는 제목으로, 매우 상세하게 제안합니다. 그러나 나는 그것을 좀 더 간결하게 만들 수 있다고 생각합니다.

처음에이 논문은 긍정적 인 의존성에 대해 이야기하는 것으로 시작하는데, 그것을 해석 할 수 있지만 구체적이지 않은 모호한 용어로 사용합니다. 증명을 읽으면 긍정적 인 의존성으로 언급 된 것을 PRSD라고하며 이전에 "집합 에서 각각에 대한 긍정적 인 회귀 의존성"으로 정의됩니다 . I 0 은 귀무 가설 (0)을 올바르게 지원하는 테스트의 하위 집합입니다. PRDS는 다음과 같이 정의됩니다.나는0나는0

PRDS

엑스나는0엑스나는0엑스나는0엑스엑스

요약하면, 양의 종속성 속성은 실제 널 테스트 통계 집합에 대한 전체 테스트 통계 집합의 양의 회귀 종속성 속성이며 FDR을 0.05로 제어합니다. 따라서 P 값이 상향식 (스텝 업 절차)에서 갈수록 널 세트의 일부가 될 가능성이 높아집니다.

공분산 행렬에 대한 의견에 대한 나의 이전의 대답은 정확하지 않고 조금 모호합니다. 나는 이것이 조금 더 도움이되기를 바랍니다.


6
감사. 가족 현명한 오류율 (Bonferroni 등)과 FDR 제어에 대한 명확한 개요를 제공하지만 여전히 "긍정적 의존성"의 의미를 이해하지 못합니다. 질병이 있거나없는 사람을 비교하여 1000 개의 다른 유전자의 발현을 테스트하는 1000 개의 P 값이 있다고 가정합니다. BH 방법을 사용하여 이러한 비교 중 "발견"을 결정합니다. 이 맥락에서 "긍정적 의존성"이란 무엇입니까?
Harvey Motulsky

9
작지만 중요한 메모 : Bonferroni는 독립성에 대해 전혀 가정하지 않습니다. 실제로, 그것은 상호 배타적 인 경우에 올바르게 적용되며, 어떤 식 으로든 가능한 한 독립적이지 않습니다. 이 독립을지지 않습니다 더 강하게 가정하에 FWER를 제어하는 보정 절차 (Sidak은). 이 답변의 다른 측면들도 약간의 가벼운 터치 업을 사용할 수 있습니다.
추기경

2
@ChrisC 아직도 이해가 안 돼요. "요소 간 공분산 행렬"? 나는 P 값의 목록으로 시작하여, (FDR이 통제 된) 후속 조치 가치가있는 "발견"이라고 불릴만큼 충분히 낮은 값을 결정하려고합니다. 공분산 행렬의 요소는 무엇입니까? 각 P 값이 그룹들 사이에서 특정 유전자의 발현을 비교하고 있으며, 그러한 유전자가 많이 있다고 가정하십시오. 각 유전자에 대해 테스트시 P 값을 생성하는 그룹을 비교합니다. 이 상황에서 "요소들이 서로 다른"또는 "그들 사이에 긍정적 인 상관 관계"가 있다는 것은 무엇을 의미합니까?
Harvey Motulsky

2
@ChrisC 감사합니다. 더 명확 해지지 만 여전히이 가정이 무엇을 의미하는지 이해하지 못합니다. 방법의 배후에있는 가정에 대해 아는 요점은 언제 그것을 위반할 가능성이 있는지를 아는 것입니다. 따라서 가정이 맞지 않는 시나리오를 나열하는 것이 도움이 될 것입니다. P 값이 낮을수록 귀무 가설이 거짓 일 확률이 높아지는 것은 언제입니까?
Harvey Motulsky

1
이것은 질문에 대답하지 않습니다.
Alexis

10

이 사전 인쇄 가 의미를 이해하는 데 도움 된다는 것을 알았습니다 . 나는이 답변을 주제의 전문가가 아니라 커뮤니티가 심사하고 검증하는 것을 이해하려는 시도로 제공한다고 말합니다.

PRD와 PRDS의 차이점에 대한 유용한 정보를 제공 한 Amoeba에게 감사의 말을 전하십시오.

  1. 아르 자형아르 자형아르 자형나는<나는나는
  2. 아르 자형

1...<1...1...

나는나는나는1...1...나는

1...

<<<

추가하기 위해 편집 :

다음은 PRDS가 아닌 시스템의 추정 예입니다 (아래 R 코드). 논리는 샘플 a와 b가 매우 유사 할 때 그들의 제품이 비정형 일 가능성이 높다는 것입니다. 이 효과 (및 (a*b), (c*d)비교를 위해 null 아래의 p- 값의 불균일성이 아님)가 p- 값에서 음의 상관 관계를 유발하고 있다고 생각하지만 확실하지는 않습니다. Wilcoxon이 아닌 두 번째 비교에 대해 t- 검정을 수행해도 동일한 효과가 나타나지만 p- 값의 분포는 정규성 가정 위반으로 인해 여전히 균일하지 않습니다.

ab <- rep(NA, 100000)  # We'll repeat the comparison many times to assess the relationships among p-values.
abcd <- rep(NA, 100000)

for(i in 1:100000){
  a <- rnorm(10)    # Draw 4 samples from identical populations.
  b <- rnorm(10)
  c <- rnorm(10)
  d <- rnorm(10)

  ab[i] <- t.test(a,b)$p.value          # We perform 2 comparisons and extract p-values
  abcd[i] <- wilcox.test((a*b),(c*d))$p.value
}

summary(lm(abcd ~ ab))    # The p-values are negatively correlated

ks.test(ab, punif)    # The p-values are uniform for the first test
ks.test(abcd, punif)   # but non-uniform for the second test.
hist(abcd)

미안하지만, 나는 이것을 정말로 따르지 않습니다.
Harvey Motulsky 2015 년

새로운 마지막 문단이 그것을 완전히 정리합니까?
Jacob Socolar

@ 아메바, 네 말이 맞아요. 이전 포스터와 연결된 Yekutieli 논문은 PRDS의 처리입니다. 내가 알 수있는 한 PRD는 동일한 속성이지만 true null에 해당하는 하위 집합뿐만 아니라 모든 테스트 통계 (또는 p- 값)에 걸쳐 있습니다.
Jacob Socolar

1
네, 당신 말이 맞아요 지금 수정 중입니다.
Jacob Socolar

1
흥미로운 예이지만 그 효과는 매우 약합니다. 약 -0.03의 상관 계수 (ab와 abcd 사이)를 얻습니다. 그러나 나는 그것을 얻지 못합니다. "샘플 a와 b가 매우 유사한 경우 "비정형 제품 일 가능성이 높습니다."
amoeba는

4

그들의 논문 에서 Benjamini와 Yekutieli는 긍정적 회귀 의존성 (PRD)이 단지 긍정적으로 연관되는 것과 어떻게 다른지에 대한 예를 제공합니다. FDR 제어 절차는 더 약한 형태의 PRD에 의존하며 이들은 PRDS (즉, 변수의 하위 집합에서 각각 PRD)라고 부릅니다.

양의 의존성은 원래 Lehmann 의 이변 량 설정에서 제안 되었지만 양의 회귀 의존으로 알려진이 개념의 다변량 버전은 다중 테스트와 관련이 있습니다.

다음은 pg.6 에서 발췌 한 내용입니다.

엑스(엑스1,엑스2)엑스h(엑스1)엑스2h(엑스1)


2

이 경우 긍정적 인 의존은 일련의 테스트가 양의 상관 관계가 있음을 의미합니다. 아이디어는 P- 값이있는 테스트 집합의 변수가 양의 상관 관계가 있으면 각 변수가 독립적이지 않다는 것 입니다.

예를 들어 Bonferroni p- 값 보정에 대해 다시 생각하면 유의 임계 값을 0.1 / 100 = 0.001로 설정하여 유형 1 오류율이 통계적으로 100 번의 독립 테스트보다 10 % 미만임을 보장 할 수 있습니다. 그러나이 100 가지 테스트 각각이 어떤 방식으로 상관 관계가 있다면 어떨까요? 그런 다음 100 개의 개별 테스트를 실제로 수행하지 않았습니다.

FDR에서 아이디어는 Bonferroni 수정과 약간 다릅니다. 중요한 것으로 선언 한 것 중 특정 비율 (예 : 10 %) 만 잘못된 것으로 선언되도록하는 것입니다. 데이터 세트에 상관 된 마커 (양성 의존성)가있는 경우 FDR 값은 수행하는 총 테스트 수를 기반으로 선택되지만 실제 통계적으로 독립적 인 테스트 수는 더 적습니다. 이런 식으로 허위 발견 률이 P- 값 집합에서 검정의 10 % 이하를 잘못 선언한다고 결론을내는 것이 더 안전합니다.

긍정적 인 의존에 대한 논의는 이 책 장 을 참조하십시오 .


2
FDR 대 Bonferroni에 대해 설명하지만 "긍정적 의존성"을 정의하지 말고 오히려 "긍정적으로 상호 연관되어 있음"으로 바꾸십시오.하지만 이해하지 못합니다. 질병이 있거나없는 사람을 비교하여 1000 개의 다른 유전자의 발현을 테스트하는 1000 개의 P 값이 있다고 가정합니다. BH 방법을 사용하여 이러한 비교 중 "발견"을 결정합니다. 이 맥락에서 "긍정적 의존성"이란 무엇입니까?
Harvey Motulsky

5
이 답변은 잘못되었습니다. 긍정적 회귀 종속성과 긍정적 연관은 서로 다릅니다. Benjamini Yekutieli 논문은이를 설명하고 참고 자료도 제공합니다. 그럼에도 불구하고 PRDS와 긍정적 연관은 서로를 암시하지 않으며 그 차이는 어느 정도 중요하다. 예를 들어, 모든 상관 관계가 음수가 아닌 경우 다변량 정규 분포는 긍정적으로 연관되어있다. "섹션 3.1, 사례 1 참조") pg를 참조하십시오. 종이 6 장.
user3303
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.