DNA 시퀀싱을위한 음 이항 분포 구하기


16

음의 이항 분포는 생물 정보학에서 카운트 데이터 (특히 주어진 실험으로부터 게놈의 주어진 영역 내에서 예상되는 수의 서열 판독 횟수)에 대한 대중적인 모델이되었다. 설명은 다양합니다.

  • 일부는 이것을 포아송 분포와 같이 작동하지만 추가 모수를 가지므로 평균과 반드시 ​​같지 않은 분산으로 실제 분포를 더 자유롭게 모델링 할 수 있습니다.
  • 일부는 이것을 포아송 분포의 가중 혼합으로 설명합니다 (푸 아송 모수의 감마 혼합 분포)

특정 수의 실패를보기 전에 Bernoulli 시도의 성공 횟수를 모델링 할 때 음의 이항 분포에 대한 전통적인 정의로 이러한 근거를 제곱하는 방법이 있습니까? 아니면 감마 혼합 분포를 갖는 푸 아송 분포의 가중 혼합이 음의 이항과 같은 확률 질량 함수를 갖는다는 것이 우연의 일치라고 생각해야합니까?


2
또한 포아송 분포의 대수 랜덤 변수를 합한 복합 포아송 분포입니다.
Douglas Zare

답변:


8

IMOH, 나는 음의 이항 분포가 편의를 위해 사용된다고 생각합니다.

따라서 RNA Seq에는 무한한 반복 실험에서 동일한 유전자에 대해 무한한 수의 측정을 수행하면 실제 분포는 로그 정규가 될 것이라는 일반적인 가정이 있습니다. 그런 다음이 분포는 Poisson 공정 (카운트 포함)을 통해 샘플링되므로 복제본에서 유전자 당 실제 분포 판독 값은 Poisson-Lognormal 분포가됩니다.

그러나 EdgeR 및 DESeq와 같은 패키지에서이 분포는 음 이항 분포로 모델링되었습니다. 썼던 사람들이 Poisson Lognormal 분포에 대해 알지 못했기 때문이 아닙니다.

Poisson Lognormal 분포는 적합 등을 수행하기 위해 수치 적분이 필요하기 때문에 끔찍한 일이기 때문에 실제로 사용하려고 할 때 성능이 실제로 좋지 않습니다.

음 이항 분포는 닫힌 형태이므로 작업하기가 훨씬 쉽고 감마 분포 (기본 분포)는 때때로 정규 분포처럼 보이고 때로는 꼬리가있는 로그 정규 분포와 매우 유사합니다.

그러나이 예에서 (가정을 믿는다면) 이론적으로 올바른 분포는 포아송 대수 정규이며 두 분포는 서로 합리적인 근사이지만 동등하지 않기 때문에 이론적으로는 정확하지 않을 수 있습니다.

그러나 나는 여전히 "부정확 한"음의 이항 분포가 경험적으로 더 나은 선택이라고 생각합니다. 왜냐하면 통합이 느리게 수행되고 특히 긴 꼬리를 가진 분포에서 적합이 제대로 수행되지 않기 때문에 더 나은 결과를 얻을 수 있기 때문입니다.


7

나는 몇 개의 웹 페이지를 살펴 보았고 설명을 찾을 수 없었지만 정수 값에 대한 것을 찾았습니다 . 알파와 베타 입자를 각각 αβ 속도로 독립적으로 생성하는 두 개의 방사성 소스가 있다고 가정 합니다.rαβ

번째 베타 입자 이전의 알파 입자 수의 분포는 무엇입니까 ?r

  1. 알파 입자는 성공한 것으로, 베타 입자는 실패한 것으로 간주하십시오. 입자가 감지되면 입자가 알파 입자 일 확률은 . 따라서 이것은 음의 이항 분포NB(r,ααα+β.NB(r,αα+β)

  2. trrΓ(r,1/β).tr=λ/αtrPois(λ).r

이것이 왜 이러한 분포가 같은지 설명합니다.


2

나는 직관 만 제공 할 수 있지만 감마 분포 자체는 (연속적인) 대기 시간 (드문 이벤트가 발생하는 데 시간이 얼마나 걸리는지)을 설명합니다. 따라서 이산 포아송 분포의 감마 분포 혼합이 이산 대기 시간 (N 실패까지의 시도)을 초래한다는 사실은 그리 놀라운 일이 아닙니다. 누군가 더 공식적인 답변을 바랍니다.

편집 : 항상 음의 이항 거리를 정당화했습니다. 실제 시퀀싱 단계는 단순히 큰 분자 라이브러리 (포아송)에서 판독 값을 샘플링하는 것입니다. 그러나이 라이브러리는 PCR에 의해 원본 샘플로 만들어집니다. 이는 원래 분자가 기하 급수적으로 증폭됨을 의미합니다. 그리고 감마 분포는 k 개의 독립적으로 지수 적으로 분포 된 랜덤 변수, 즉 동일한 수의 PCR 사이클 동안 k 개의 샘플 분자를 증폭 한 후 라이브러리에 얼마나 많은 분자가 있는지를 설명합니다.

따라서 음성 이항 모델 PCR 후 시퀀싱.


그것은 의미가 있지만, 게놈에서 시퀀싱 리드의 수를 측정하는 맥락에서 음의 이항 분포에서 대기 기간이 무엇을 나타내는 지에 대한 직관적 인 설명이 있습니까? 이 경우 대기 시간이 없습니다. 그는 단지 시퀀싱 판독 횟수를 측정하고 있습니다.
RobertF

내 편집을 참조하십시오. 대기 시간 측면에서 생각하는 것이 시퀀싱 설정에 어떻게 적합한 지 알 수 없습니다. 감마 포아송 혼합물은 해석하기가 더 쉽습니다. 그러나 결국 그들은 같은 것입니다.
Felix Schlesinger

2
그렇다면 실제 질문은 베르누이 (Beroulli) 시험에서 모델링 k 성공 + r 실패가 감마 포아송 혼합물을 따르는 우연의 일치에 의한 것일 수 있습니다. 음의 이항 모델링 k 성공 + r 실패는 성공 및 실패 시도의 많은 순열로 인해 정확히 k 개의 관측 된 성공과 r 관찰 된 실패를 초래하는 과도하게 분산 된 포아송 dbn으로 간주 될 수 있습니다. 별도의 dbns?
RobertF

2

나는 이것에 대해 생각할 때 유용하다고 생각한 단순한 기계적인 해석을 제공하려고 노력할 것이다.

도서관 준비 전에 게놈의 완벽한 균일 한 범위를 가지고 있다고 가정하고 관찰 μ사이트를 평균적으로 읽습니다. 시퀀싱은 원래 DNA 조각을 선택하여 PCR, 서브 샘플링 등을 거치는 확률 적 과정을 거쳐 주파수에서 조각의 염기를 얻는 과정이라고 가정하십시오.그렇지 않으면 실패합니다. 시퀀싱이 진행될 때까지μ1 실패는 음 이항 분포로 모델링 할 수 있습니다. (μ1,).

이 분포의 순간을 계산하면 예상되는 성공 횟수를 얻습니다. μ11=μ필요에 따라. 성공 횟수의 분산을 위해σ2=μ(1)1 -프래그먼트에 대한 라이브러리 준비가 실패하는 비율은 관찰 된 커버리지의 편차를 증가시킵니다.

위는 시퀀싱 과정에 대한 약간 인공적인 설명이며 PCR 단계 등의 적절한 생성 모델을 만들 수는 있지만과 분산 매개 변수의 출처에 대한 통찰력을 제공한다고 생각합니다. (1)1음 이항 분포에서 직접. 일반적인 설명으로 속도가 통합 된 포아송 모델을 선호합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.