이 포럼의 누군가가 유전자 발현 연구에서이 기본적인 문제를 해결해 줄 수 있기를 바랍니다.
나는 실험 조직과 대조 조직의 깊은 시퀀싱을했다. 그런 다음 대조군보다 실험 샘플에서 유전자의 배수 농축 값을 얻었습니다. 기준 게놈에는 ~ 15,000 개의 유전자가 있습니다. 15,000 개 유전자 중 3,000 개가 대조군과 비교하여 관심있는 샘플에서 특정 컷오프 이상으로 농축되었습니다.
따라서 : A = 총 유전자 집단 = 15,000 B = RNA-Seq 농축 하위 집단 = 3,000.
이전의 칩 칩 실험에서, 칩 칩이 풍부한 400 개의 유전자를 발견했습니다. 400 개의 칩 칩 유전자 중 100 개의 유전자가 3,000 개의 농축 된 RNA-Seq 전 사체 그룹에 있습니다.
따라서 : C = 총 칩 칩 풍부 유전자 수 = 400.
100 개의 칩 칩 유전자가 우연히 RNA-Seq에 의해 풍부해질 확률은 얼마입니까? 다시 말해, B와 C (100 개의 유전자) 사이에 관찰 된 중첩이 우연히 얻은 것보다 더 나은지 계산하는 가장 신중한 방법은 무엇입니까? 지금까지 읽은 내용에서 이것을 테스트하는 가장 좋은 방법은 초기 하 분포를 사용하는 것입니다.
온라인 계산기 (stattrek.com)를 사용하여 다음과 같은 매개 변수로 초 지오 분포 분포 테스트를 설정했습니다. Hypergeometric Probability P (x = 100) = 0.00224050636447747에 대해 다음을 얻습니다.
B와 C 사이에 겹치는 실제 유전자 수 = 100. 이것은 우연히하는 것보다 낫습니까? 하나의 유전자가 풍부해질 확률이 1 : 5 (15,000 중 3,000) 인 것처럼 보이지 않습니다. 그래서 위에서 계산 한 P (x = 100)이 0.0022가되는 방법을 이해하지 못하는 이유가 있습니다. 우연히 중복이 발생할 확률은 0.2 %입니다. 이보다 더 높아서는 안됩니까?
400 개의 무작위 유전자를 샘플링하여 15,000 개의 큰 목록을 만들면이 유전자 중 80 개가 우연히 풍부해질 것으로 예상됩니다 (1 : 5). 실제로 겹치는 유전자의 수는 100 개이므로 우연보다 약간 더 좋습니다.
또한 R의 Dhyper 또는 Phyper 기능을 사용하여 솔루션을 생각해 보았습니다 (다른 게시물에서 본 것을 사용하여). -칩 농축 유전자 (400) 다음은 R 입력 / 출력입니다 (이전 스택 교환 포스트에서 수정).
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
이 숫자를 해석하는 방법을 잘 모르겠습니다. 2.36e-36은 우연히 B와 C가 완전히 겹칠 가능성이 있다고 생각합니까? 그러나이 확률은 1 : 5에 훨씬 가깝기 때문에 의미가 없습니다. 15,000 개의 유전자로 시작하면 3,000 개가 풍부 해집니다. 마찬가지로, 400 개의 칩 칩 유전자로 시작한다면, 그 데이터 세트에서 1 : 5의 농축 가능성으로 인해 80 개가 RNA-Seq만으로 강화되어야합니다.
B와 C의 겹침에 대해 초기 하 분포에 따라 p- 값을 계산하는 올바른 방법은 무엇입니까?