음 이항 분포의 연속 일반화


24

음 이항 (NB) 분포 는 음이 아닌 정수로 정의되며 확률 질량 함수 k \ in \ mathbb N_0x \ in \ mathbb R _ {\ ge 0}로

f(k;r,p)=(k+r1k)pk(1p)r.
바꾸는 음이 아닌 실수에 대한 연속 분포를 고려하는 것이 합리적 입니까? 이항 계수는 (k + 1) \ cdot \ ldots \ cdot (k + r-1) 의 곱으로 다시 쓸 수 있으며 이는 실제 k에 대해 잘 정의되어 있습니다. 따라서 우리는 PDF f (x; r, p) \ propto \ prod_ {i = 1} ^ {r-1} (x + i) \ cdot p ^ {x} (1-p) ^ {r} . 보다 일반적으로 이항 계수를 감마 함수로 대체하여 정수가 아닌 r 값을 허용합니다 . kN0xR0(k+1)(k+r1)k
f(x;r,p)i=1r1(x+i)px(1p)r.
r
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

유효한 배포입니까? 이름이 있습니까? 용도가 있습니까? 아마 화합물입니까 아니면 혼합물입니까? 평균 및 분산 (및 PDF의 비례 상수)에 대한 공식이 닫혀 있습니까?

(현재 NB 혼합 모델 (고정 r=2 )을 사용하고 EM을 통해 적합 하는 논문을 연구 하고 있습니다. 그러나 데이터는 정규화 후 정수입니다. 즉 정수가 아닙니다. 그럼에도 불구하고 저자는 표준 NB 공식을 계산에 적용합니다. 가능성과 매우 합리적인 결과를 얻을 수 있으므로 모든 것이 잘 작동하는 것 같습니다. 매우 당혹 스럽습니다.이 질문은 NB GLM에 관한 것이 아닙니다 .)


1
스케일 파라미터가 -\ log p 인 감마가 혼합되어 있지 logp않습니까? 다항식 Πi=1r1(x+i) 을 확장하면 i=2raixi1 되고 p ^ x 를 곱하면됩니다 pxexp{xlogp} 와 동일합니다. 여기서 ai 는 다항식의 xi1 계수이며 logp<0 이므로 a로 변환하는 것처럼 보입니다. 가마 분포의 가중 평균, 즉 혼합물.
jbowman

... 실제로 위의 합계에서 i = 1 이어야합니다 i=1.
jbowman

2
이후 (1p)r 파라미터에만 의존 이것은 비례에 흡수 될 수있는 상수이다. 또한 (x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1)) 에는 상수 1/Γ(r) 도 있습니다. 무시하십시오. \ rho =-\ log (p) \ ge 0에 pk=ekρ 를 쓰면 f (x; r, \ rho) = \ frac {\ Gamma에 비례하는 밀도에 대해 묻는 것입니다 (x + r)} {\ Gamma (x + 1)} \, e ^ {-\ rho x}. 이는 \ rho 를 스케일 팩터로, r 을 모양 매개 변수로 식별 합니다. 들어 통합 R 명확 감마 분포의 혼합물이다. 그러나 r 을 정수 로 제한하는 것은 의미가 없습니다 .ρ=log(p)0
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rr
whuber

1
@whuber 맞습니다. 실제로 양수 값에서 연속적이고 점 질량이 0 인 분포를 사용하고 있습니다. 이것이 올바른 접근 방법이라고 생각합니다. 그러나 0에 0이 아닌 가능성을 가지므로 정확한 0을 처리 할 수있는 NB의 연속 일반화를 사용하는 것이 좋습니다. 따라서 내 질문.
amoeba는 Reinstate Monica가

2
나는 그 제안에 약간의 혼동이있을 수 있다고 생각합니다 : 그것은 확률 (점 질량이 있거나 NB 분포가 0에 있음)과 확률 밀도 ( 의 값) 입니다. 아직도의 값 것을 제로 기회 예측 때문에 제로가 아닌 밀도는, 당신이 정확한 제로 처리하는 것을 허용하지 않습니다 발생하는 것이다! f(0,θ)0
whuber

답변:


21

흥미로운 질문입니다. 저의 연구 그룹은 공개적으로 사용 가능한 생물 정보학 소프트웨어에서 몇 년 동안 참조한 배포판을 사용하고 있습니다. 내가 아는 한, 배포판에는 이름이 없으며 그것에 관한 문헌이 없습니다. Aksakal이 인용 한 Chandra et al (2012)의 논문은 밀접한 관련이 있지만, 그들이 고려하는 분포는 대한 정수 값으로 제한되는 것으로 보이며 pdf에 대한 명시적인 표현을 제공하지 않는 것 같습니다.r

NB 분포는 게놈 연구에서 RNA-seq 및 관련 기술에서 발생하는 유전자 발현 데이터를 모델링하는 데 매우 많이 사용됩니다. 카운트 데이터는 각각의 유전자에 맵핑 될 수있는 생물학적 샘플로부터 추출 된 DNA 또는 RNA 서열 판독의 수로서 발생한다. 전형적으로, 각각의 생물학적 샘플로부터 약 25,000 개의 유전자에 매핑 된 수천만 개의 판독 값이 존재한다. 대안 적으로, 판독은 게놈 창에 매핑되는 DNA 샘플을 가질 수있다. 우리와 다른 사람들은 NB glms가 각 유전자의 염기 서열에 맞도록하는 접근법을 대중화했으며 경험적인 Bayes 방법을 사용하여 유전자 분산 추정량을 조정했습니다 (분산ϕ=1/r). 이 접근법은 게놈 문헌에있는 수만 개의 저널 논문에서 인용되었으므로 얼마나 많이 사용되는지에 대한 아이디어를 얻을 수 있습니다.

우리 그룹은 edgeR R 소프트웨어 패키지를 관리합니다. 몇 년 전 우리는 NB pmf의 연속 버전을 사용하여 분수 단위로 작동하도록 전체 패키지를 수정했습니다. 우리는 단순히 NB pmf의 모든 이항 계수를 감마 함수의 비율로 변환하고 (혼합) 연속 pdf로 사용했습니다. 이것에 대한 동기는 (1) 전 사체 또는 게놈에 대한 판독의 모호한 맵핑 및 / 또는 (2) 기술적 효과를 교정하기위한 카운트의 정규화로 인해 서열 판독 카운트가 때때로 소수 일 수 있다는 것이었다. 따라서 카운트는 때때로 관측 카운트가 아닌 예상 카운트 또는 추정 카운트입니다. 물론 양의 확률로 판독 횟수는 정확히 0 일 수 있습니다. 우리의 접근 방식은 소프트웨어의 추론 결과가 카운트에서 연속적이며 추정 카운트가 정수일 때 이산 NB 결과와 정확하게 일치합니다.

내가 아는 한, pdf에는 정규화 상수에 대한 닫힌 형태가 없으며 평균 또는 분산에 대한 닫힌 형태도 없습니다. 적분 (Fransen-Robinson 상수)에 대해 닫힌 양식이 없다고 생각할 때 연속의 적분에 대한 적분이있을 수 없음이 분명합니다 NB pdf 중 하나. 그러나 NB에 대한 전통적인 평균 및 분산 공식은 계속 NB에 대한 좋은 근사치이어야합니다. 또한 정규화 상수는 모수에 따라 느리게 변해야하므로 최대 우도 계산에 무시할만한 영향을 미치는 것으로 무시할 수 있습니다.

01Γ(x)dz

수치 적분으로 이러한 가설을 확인할 수 있습니다. NB 분포는 포아송 분포의 감마 혼합물로서 생물 정보학에서 발생한다 ( 위키피디아 음성 이항 기사 또는 McCarthy et al 참조). 연속 NB 분포는 Poisson 분포를 연속 아날로그로 pdf 에 대한 , 예를 들면 1로 가정하자 밀도하여 통합을 보장하기위한 정규화 일정하게 . 포아송 분포는 음이 아닌 정수에 대해 위의 pdf와 pmf가 같고

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10푸 아송 평균과 분산은 10과 같습니다. 수치 적분은 이고 연속 분포의 평균과 분산은 10에서 약 4까지의 유효 숫자와 같습니다. 따라서 정규화 상수는 거의 1이고 평균과 분산은 이산 형 포아송 분포와 거의 동일합니다. 연속성 보정을 추가하여 0 대신 에서 통합하면 근사값이 훨씬 향상 됩니다. 연속성 보정을 사용하면 모든 것이 정확합니다 (정규화 상수는 1이고 모멘트는 불연속 포아송과 일치). 약 6 수치.a(10)=1/0.9998751/2

edgeR 패키지에서는 조건부 로그 우도 또는 로그 우도 차이로 항상 작업하고 델타 함수가 계산에서 취소되므로 질량이 0에 있다는 사실을 조정할 필요가 없습니다. 확률 분포가 혼합 된 glm의 일반적인 BTW입니다. 또는 분포가 0에 질량이 없지만 0이 아닌 -1/2에서 시작하는 것을 지원한다고 생각할 수 있습니다. 이론적 관점은 실제로 동일한 계산으로 이어집니다.

지속적인 NB 배포판을 적극적으로 사용하지만 명시 적으로 게시 한 것은 없습니다. 아래 인용 된 논문은 게놈 데이터에 대한 NB 접근 방식을 설명하지만 연속적인 NB 분포를 명시 적으로 논의하지는 않습니다.

요약하자면, 귀하가 연구하는 기사가 NB pdf의 지속적인 버전에서 합리적인 결과를 얻었음을 놀라지 않습니다. 그것이 우리의 경험이기도하기 때문입니다. 핵심 요구 사항은 우리가 평균과 분산을 정확하게 모델링해야하고, 정수에 관계없이 데이터가 NB 분포와 동일한 2 차 평균-분산 관계 형식을 나타내는 경우에는 괜찮을 것입니다.

참고 문헌

Robinson, M. 및 Smyth, GK (2008). SAGE 데이터에 응용하여 음성 이항 분산의 작은 샘플 추정 . 생물 통계학 9, 321-332.

Robinson, MD, Gmy Smyth (2007). 태그 풍부도의 차이를 평가하기위한 중재 된 통계 테스트 . 생물 정보학 23, 2881-2887.

McCarthy, DJ, Chen, Y, Smyth, GK (2012). 생물학적 변이에 대한 다 인자 RNA-Seq 실험의 차등 발현 분석 . 핵산 연구 40, 4288-4297.

Chen, Y, Lun, ATL 및 Smyth, GK (2014). edgeR을 사용한 복잡한 RNA-seq 실험의 차등 발현 분석. 에서 : 차세대 서열 데이터의 통계 분석, Somnath Datta 및 Daniel S Nettleton (eds), Springer, New York, 51--74 쪽. 프리 프린트

Lun, ATL, Chen, Y 및 Smyth, GK (2016). 그것은 de-licious입니다 : edgeR에서 유사 가능성 방법을 사용하여 RNA-seq 실험의 차등 발현 분석을위한 레시피. 분자 생물학 방법 1418, 391-416. 프리 프린트

Chen Y, Lun ATL 및 Smyth, GK (2016). 리드에서 유전자, 경로까지 : Rsubread 및 edgeR 유사 가능성 파이프 라인을 사용한 RNA-Seq 실험의 차등 발현 분석 . F1000 연구 5, 1438.


이것은 매우 도움이됩니다, @Gordon; 작성 시간을 내 주셔서 감사합니다. RNA-seq 데이터로도 작업하고 있으므로이 관점의 대답은 특히 가치가 있습니다 (이제 질문에 [bioinformatics] 태그를 추가했습니다). 귀하의 작업은 차등 표현에 관한 것이지만 현재의 작업은 클러스터링에 관한 것입니다 (내가 읽고있는 논문은 Harris et al. on CA1 interneurons; biorxiv ). 어쨌든 몇 가지 작은 질문 / 설명을 부탁 드리겠습니다. [계속]
아메바는 모니카의 복원 국 모니카

(1) 연속 NB는 연속 포아송의 감마 혼합물이라고 말했습니다. 조금 더 확장 해 주시겠습니까? 좀 더 명시 적으로 보여 주시겠습니까? 나는 이것이 일반 청중에게 유용 할 것이라고 생각합니다. 이와 관련하여, 내 질문에 대한 의견에서 두 사람은 연속 NB가 감마와 스케일 매개 변수 의 혼합이어야 하지만 정수 만 사용해야한다고 썼습니다 . 두 견해 모두 사실입니까? (2) 0의 델타 함수는 GLM에 중요하지 않습니다. 동시에 분포가 0 인 GLM에 대한 많은 문헌이 있습니다. 그것은 어떻게 맞습니까? log(p)r
아메바는

(3) 실제 작업에서 ML을 사용하여 포함한 모든 매개 변수를 추정 합니까, 아니면 을 미리 특정 값으로 고정 하시겠습니까 (아마도 모든 유전자에 대해 동일한 값을 공유합니까?) 일정하게 유지합니까? 나는 이것이 훨씬 쉬워야한다고 생각합니다. (예 : NB 자체는 지수 분산 시스템이지만 고정 만 있습니다 .)rrr
amoeba는 Reinstate Monica가

1
@amoeba biorxiv 심판 주셔서 감사합니다. (1) 포아송의 혼합물로서 NB의 유도는 잘 알려져 있으며, 우리의 논문, 예를 들어 McCarthy et al. 연속 NB의 도출은 단지 포아송을 연속 포아송으로 대체함으로써 이어진다. 이것을 답변에 추가해야합니까? 길게 만들 것입니다. 연속 NB가 감마의 혼합으로 유용하게 표현되는 방법을 알 수 없습니다. (2) 아니요, 무 인플레이션은 다른 추가 합병증입니다. 우리는 우리의 일에서 그러한 합병증을 피합니다.
Gordon Smyth

1
@amoeba (3) 모든 매개 변수를 추정합니다. 오류율 제어를 달성하기 위해 유전자 분산을 추정하는 것이 중요하며, 표본 크기가 종종 작고 데이터의 크기가 크기 때문에 특히주의해서 수행해야합니다. 우리는 유전자 사이의 가중 가능성 실험적 베이 즈 절차와 연결된 각 유전자 내에서 조정 된 프로파일 가능성 (REML 생각)을 포함하는 복잡한 절차를 사용합니다. 이어서, 유전자형 NB glm을 분산액이 고정 된 ML에 의해 장착한다. 마지막으로 계수는 유사 우도 F- 검정을 사용하여 테스트됩니다.
Gordon Smyth

19

찬드라, 니 마이 쿠마르, 딜립 로이의 논문을보십시오 . 음 이항 분포의 연속 버전입니다. 통계 72, No. 1 (2012) : 81 .

이 논문에서는 생존 함수로 정의되는데, 이는 이항 법이 신뢰성 분석에 도입 된 이후의 자연스러운 접근 방식입니다.

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
여기서 및 .q=eλ,λ0,p+q=1rN,r>0

감사! 이 논문을 살펴 보겠습니다. (내가 공감 한 사람은 내가 아니었다.)
아메바는 모니카의 복원 국 모니카가

@amoeba, 나는 downvoting에 대해 걱정하지 않습니다, 그것은 인터넷입니다 :)
Aksakal

3
(이 답변이
다운 투표

이 참조를 갖는 것이 좋지만 이상적으로는 여기에서 더 자세한 논의를보고 싶습니다. 이 생존 함수가 내 질문에서 PDF와 동일한 분포를 정의합니까? (그런데, 저자가 정수가 아닌 값에 대해 이항 계수를 사용하는 것이 조금 이상하다고 생각합니다 .) 위의 여러 의견은 이것이 감마 분포의 혼합이라고 지적합니다 (나는 이것에 대한 논의를 보지 못했습니다) 종이); 이 감마의 매개 변수는 무엇입니까, 혼합 가중치는 무엇입니까? 평균에 대한 NB 수식과 연속 버전에 대한 분산이 유지됩니까? x
amoeba는 Reinstate Monica가

@amoeba 용지는 불행하게도, 그들은 NB에서와 동일하지 않은 순간이있다
Aksakal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.