정규 분포의 유한 혼합에서 표본을 추출합니까?


10

일부 베이지안 업데이트 단계 후에, 나는 정규 분포의 혼합물 형태의 후 분포 인 즉, 모수 θ 는 PDF가 일반 PDF의 가중치 혼합으로 제공되고 정규 RV의 합이 아닌 분포에서 가져옵니다. 샘플을 그리고 싶습니다 θ Pr ( θ | data )

Pr(θ|데이터)=나는=1케이나는(μ나는,σ2).
θθ홍보(θ|데이터)이 후부의 중요도 샘플링 근사치에서 사용합니다. 실제로, 대한 합 은 많은 수의 항을 가질 수 있으므로 가중치 { w i } 에 따라 항 i 를 선택한 다음 θ N ( μ i , σ 2 ) 을 그리는 것은 비현실적 일 수 있습니다 . 이 양식의 후부에서 샘플을 효율적으로 추출하는 방법이 있습니까?나는나는{나는}θ(μ나는,σ2)

실제로 select then throw 메소드를 사용해 보셨습니까? O (k) 단계로 합리적으로 빠르게 선택할 수 있습니다.
dmckee --- 전 운영자 고양이

1
Barron의 솔루션이 실제로 정확하지 않고 실제로 "혼합 모델"을 의미하는 경우 해당 용어를 사용할 수 있습니까?
Neil G

1
Neil G : 저는 무역 통계학자가 아니라 때로는 통계를 사용해야하는 물리학 자입니다. 따라서 나는 내가 필요한 것을 설명하는 적절한 용어를 몰랐다. 그래도 계속 질문을 편집하여 RV가 아닌 PDF가 합산되고 있음을 더 명확하게 알 수 있습니다.
Chris Granade

1
@ChrisGranade : 나는 당신을 쓰러 뜨리려고하지 않았습니다. 나는 그것이 당신이 의미하는 바인지 확인하고 편집을 제안하고 싶었습니다.
Neil G

1
가중치 { w i }[ 0 , 1 ] 의 균일 분포에서 표본을 선택한 다음 표본 N ( μ i , σ 2 )을 기준으로 를 선택하는 것이 왜 비실용적 입니까? 이것은 단일 정규 분포를 샘플링하는 것보다 적당히 비싸며, 비용은 혼합 분포의 수 k 와 무관하며 정규 분포에 의존하지 않습니다. 나는{나는}[0,1](μ나는,σ2)케이
Jed Brown

답변:


6

원칙적으로 각 하위 분포에서 추출 할 샘플 수를 미리 선택한 다음 각 하위 분포를 한 번만 방문하여 포인트 수보다 그릴 수 있습니다.

그건

  1. 임의의 세트 n = k i = 1 n i 이고 가중치를 고려하도록 찾습니다.<1,2,,케이>=나는=1케이나는

    나는 당신이이 작업을 수행 있다고 생각 포아송 분포를 그리기 평균의 다항 분포 (주석 참조) 각 하위 배포 다음에 합 정상화 N을 .나는

    여기서의 작업은 영형(케이)영형()

  2. 그런 다음

    for (i=1; i<=k; ++i)
       for (j=1; j<=n[i]; ++j)
          theta ~ N(mu[i],sigma[i])
    

    여기서 작업은 영형()

비록 이것은 당신이 무작위 순서로 얻지 못한다는 것을 의미합니다. 무작위 순서가 필요한 경우 추첨을 섞어 야합니다 (또한 큰 ).영형()

첫 번째 단계는 런타임에서 순진 알고리즘과 같은 순서로 지배적 인 것처럼 보이지만 모든 이면 확실하게 정규 분포를 사용하여 포아송 분포를 근사하고 첫 번째 단계의 속도를 높일 수 있습니다.나는1


n 이 고정 된 경우 의 분포는 포아송 분포 가 아니라 이항 분포입니다. 나는
Frédéric Grosshans

@ FrédéricGrosshans Uhm ... 여기서 내가 고민하는 약점을 인정합니다. 당신이 옳을지도 모른다고 생각합니다. 임의의 이항 분포를 던질 수있는 링크는 없지만 wikipedia에는 ​​몇 가지 참조가 있습니다. Poisson과 Binomial 사이에는 관계가 있는데, 이것이 내가 불확실성을 책임지고 있다고 주장 할 것입니다. 그래, 그게 티켓이야
dmckee --- 전 운영자 고양이

1
@dmckee : 1 단계에서 포아송 분포가 아닌 다항 분포 여야한다는 점을 제외하고는 혼합 모형에서 도출하기에 적합합니다.
Neil G

3

참고 : 이 질문의 원래 버전은 다음 대답이 유용 할 수있는 "가중 정규 분포의 합"에 대해 질문했습니다. 그러나이 답변, @Geoff의 답변 및 질문 자체에 대한 약간의 토론을 한 후에,이 답변이 적용되지 않는 "정규 분포의 혼합"을 샘플링하는 것이 문제라는 것이 분명해졌습니다.


정규 분포의 합은 정규 분포이므로이 단일 분포의 모수를 계산 한 다음 간단히 그로부터 표본을 추출 할 수 있습니다. 이 분포를 하면(μ에스미디엄,σ에스미디엄2)

μ에스미디엄=나는=1케이나는μ나는

σ에스미디엄2=나는=1케이나는2σ나는2

3
간결하게 말하면 Chris는 확률 변수 함수를 임의 변수가 아니라 합산합니다.
Geoff Oxberry

2
Chris는 원칙적으로 여러 가지 충돌이있는 PDF를 원합니다. 즉, 그는 합계의 PDF가 아니라 PDF의 합계였습니다.
dmckee --- 전 운영자 고양이

1
정규 분포 랜덤 변수 의 합 자체가 정규 분포 랜덤 변수 라는 것은 사실입니다 . 그러나 정규 분포의 합은 정규 분포가 아닙니다. 따라서 X 2 ~ N ( μ 2 , σ 2 2 ) 이면 X 1 + X 2 ~ N ( μ 1 + μ 2 , σ 2 1)엑스1(μ1,σ12)엑스2(μ2,σ22) 이지만 P D F ( X 1 + X 2 ) P D F ( X 1 ) + P D F ( X 2 ) . (설명을 위해 크레딧은 @ChrisGranade로갑니다.)엑스1+엑스2(μ1+μ2,σ12+σ22)에프(엑스1+엑스2)에프(엑스1)+에프(엑스2)
Geoff Oxberry

2
@dmckee : "가중 정규 분포의 합"이 아니라 "정규 분포의 혼합"입니다.
Neil G

2
@Barron 의견은 페이지의 필수 부분으로 간주되지 않습니다. 댓글을 보지 않는 독자가 오해되지 않도록 댓글의 요점을 포함하도록 답을 확실히 편집해야합니다.
David Ketcheson

2

업데이트 :이 답변은 용어의 혼동에서 비롯된 잘못된 답변입니다 (자세한 내용은 아래 주석 체인 참조). 나는 사람들 이이 답변을 다시 게시하지 않도록 이정표로만 남겨두고 있습니다 (Barron 제외). 투표권을 올리거나 내리지 마십시오.

임의 변수의 속성을 사용하여 정규 분포를 따르는 단일 임의 변수로 줄입니다. 두 개의 독립적이고 정규 분포 된 랜덤 변수합은 그 자체가 랜덤 변수 이므로 X 2 ~ N ( μ 2 , σ 2 2 ) 이면엑스1(μ1,σ12)엑스2(μ2,σ22)

엑스1+엑스2(μ1+μ2,σ12+σ22).

또한 이면1아르 자형

1엑스1(1μ1,12σ12).

이 두 결과를 결합한 다음

아르 자형(θ|)(나는=1케이나는μ나는,나는=1케이나는2σ나는2).

따라서이 경우 단일 분포에서 표본을 추출하기 만하면되므로 훨씬 다루기 쉽습니다.


2
이것은 원래 분포가 다중 모달이고 제안이 단일 모달이라는 사실에서 볼 수있는 다른 문제에 대한 해결책입니다.
Chris Ferrie

@ChrisFerrie : 나는 당신을 믿지만, 표기법에 따르면 위의 분포가 왜 다중 모달이 될지 혼란 스럽지만 두 개의 독립적 가우시안 랜덤 변수의 합은 그렇지 않습니다. 내가 여기서 무엇을 놓치고 있습니까?
Geoff Oxberry

(엑스1+엑스2)(엑스1)+(엑스2)나는

아, 당신은 PDF의 합계를보고 있습니다. 예, 그것은 완전히 다른 짐승입니다. 질문을보다 자세히 읽었으므로, 당신이하는 말을보고 응답을 삭제하겠습니다. 감사!
Geoff Oxberry

나는 이전에 삭제 된 답변을 삭제하지 않고 다른 사람들을위한 지침으로 만 사용할 수 있으므로 Barron과 같은 아무도이 질문에 대답하지 못합니다. 더 이상 내 대답에 투표하지 마십시오.
Geoff Oxberry
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.