부적절한 혼합물에서 정확한 샘플링


10

연속 분포 에서 표본을 추출한다고 가정 합니다. 양식 에 의 표현이 있으면p(x)p

p(x)=i=1aifi(x)

여기서 ai0,iai=1fi 는 쉽게 샘플링 할 수있는 분포이며, p 하여 쉽게 샘플을 생성 할 수 있습니다 .

  1. 확률 a_i 로 레이블 i 샘플링iai
  2. 샘플링 Xfi

ai 가 때때로 음수 인 경우이 절차를 일반화 할 수 있습니까? 나는 아마도 책, 아마도 Kolmogorov 배포판 에서이 작업을 수행 한 것으로 보았으므로 답변으로 참조를 받아들이는 것이 기뻤습니다.

구체적인 장난감 예제가 도움이 경우,하자 내가의 샘플에하고 싶은 말을

p(x,y)exp(xyαxy)x,y>0
I는거야 걸릴 α(0,2) 기술적 인 이유로 어떤해야 너무 많이 중요하지, 사물의 웅대 한 계획이다.

원칙적으로 이것을 다음 합계로 확장 할 수 있습니다.

p(x,y)n=0(1)nαn(n2)!(n2)!n!(xn/2ex(n2)!)(yn/2ey(n2)!).

(x,y) 합이 다음 독립적 감마 랜덤으로 variates에서 샘플링 될 수있다 내부 -terms. 내 문제는 분명히 계수가 "가끔"음수라는 것입니다.

편집 1 : 내가 생성하기 위해 노력하고 있음을 명확히 정확한 샘플 에서 p 오히려에서 기대 계산보다, p . 관심있는 사람들을 위해, 그렇게하는 몇 가지 절차는 의견에서 언급됩니다.

편집 2 : Devroye의 'Non-Uniform Random Variate Generation' 에서이 문제에 대한 특정 접근법을 포함하는 참조를 찾았습니다 . 이 알고리즘은 Bignami와 de Matteis의 '배포 조합에서 샘플링에 대한 참고 사항'에서 발췌 한 것 입니다. 이 방법은 합의 양의 항으로 밀도를 위로부터 효과적으로 바인딩 한 다음이 엔벨로프를 기반으로 거부 샘플링을 사용합니다. 이것은 @ Xi'an의 답변에 설명 된 방법에 해당합니다.


1
의 절대 값을 사용한 다음 샘플 을 하여 샘플링 할 수없는 이유는 무엇 입니까? 다시 말해(이것이 유한하다고 가정 한 다음) 합을 다시 정규화하십시오 . X f i Z : = i = 1 | | aiXfiZ:=i=1|ai|Z
Alex R.

2
@AlexR. 내가 당신을 이해한다면,이 버전은 아래에 기대를 계산하기위한 실용적 일 것입니다 하지만 아직도에서 정확한 샘플을 그리기위한 . 확실히 이것은 내가 찾고있는 것이 아니지만 관련 문제에 대한 답변입니다. ppp
πr8

4
해당 샘플로 수행하려는 작업에 따라 다릅니다. 예를 들어, 계산 모멘트를 위해 음의 계수를 가진 구성 요소에서 선택한 점을 "부정적"점으로 표시하고 모멘트 추정에서 그 기여도를 부정적으로 가중함으로써 밀도 혼합에서 샘플링을 일반화하는 것이 간단 해 보입니다. 마찬가지로 일부 값이 음수 일 가능성을 수용 할 수 있다면 이러한 음수 가중치로 KDE를 구성 할 수 있습니다! (cc @ Xi'an)
whuber

1
분포의 "정확한"표본은 무엇입니까? 다시, 음의 무게를 가진 혼합물을 활용할 수 있는지 여부와 방법은 샘플 사용 방법에 달려 있습니다.
whuber

1
이것은 귀하의 질문에 대한 답변은 아니지만, 로그 확률 stats.stackexchange.com/a/260248/35989
Tim

답변:


5

나는이 질문에 당황했지만 만족스러운 해결책을 찾지 못했습니다.

밀도가 기록 가능한 경우에 소용이 하나 개의 특성, 즉 인 여기서, 인 밀도되도록 , 시뮬레이션으로부터 확률 이러한 시뮬레이션을 거부 에서의 시뮬레이션을 제공한다 . 현재의 경우, 는 양의 가중치 성분의 정규화 된 버전입니다. 및 는 나머지 g g ( x ) ω h ( x ) g ω h ( x ) / g ( x ) f g g ( x ) = α i > 0 α i f i ( x ) / α i > 0 α i ω h h ( x ) = α

f(x)=g(x)ωh(x)1ωω>0
gg(x)ωh(x)gωh(x)/g(x)fg
g(x)=αi>0αifi(x)/αi>0αi
ωh
h(x)=αi<0αifi(x)/αi<0αi
이것은 실제로 불균일 랜덤 변량 생성 , 섹션 II.7.4 인 Devroye의 시뮬레이션 성경에서 발견 되지만, 단순한 수락-거부 추론에서 비롯됩니다.

이 접근법의 첫 번째 계산 단점은, 선택된 컴포넌트 로부터 먼저 시뮬레이션하더라도 , 와 의 합 은 거부 단계를 위해 계산되어야한다는 것이다. 닫힌 폼 버전 없는 합계가 무한대 이면 accept-reject 메소드를 구현할 수 없습니다 . g의 Hfigh

두 번째 어려움은 두 가중치의 이 동일한 순서 거부율상한이 없습니다. 실제로 와 관련된 계열 이 절대적으로 수렴되지 않으면 합격 확률은 0입니다! 이 상황에서는 방법을 구현할 수 없습니다.1ϱ수락=α i < 0 | αi| / i | αi| α i

αi>0αi=1αi<0αi
1ϱaccept=αi<0|αi|/i|αi|
αi

혼합 표현의 경우 를 구성 요소를 먼저 선택한 다음 방법을 구성 요소에 적용 할 수 있습니다. 그러나 이것은 구현하기에 섬세 할 수 있으며 , 아마도 무한한 합계에서 맞는 쌍 을 식별하는 것이 반드시 실현 가능하지는 않습니다.f ( x ) = i = 1 α i g i ( x ) ω i h ( x i )f( g i , h i ) g i ( x ) ω i h ( x i ) > 0

f(x)=i=1αigi(x)ωih(xi)1ωiωi>0
(gi,hi)gi(x)ωih(xi)>0

시리즈 표현 자체에서보다 효율적인 해상도를 얻을 수 있다고 생각합니다. IV.5의 불균일 랜덤 변량 생성 Devroye 에는 다양한 시리즈 방법이 포함되어 있습니다. 예를 들어 '일 때 대상 의 대체 시리즈 표현에 대한 다음 알고리즘 은 0으로 수렴 하고 는 밀도입니다.

f(x)=κh(x){1a1(x)+a2(x)}
ai(x)nhDevroye의 대체 시리즈 방법

이 문제는 최근 Glynn-Rhee 접근법 과 같이 MCMC에 대한 편향 바이어스 추정기 (debiasing biased estimators)와 관련하여 고려되었다 . 그리고 러시아 룰렛 추정기 (Beroulli 공장 문제와 관련이 있음). 그리고 편견없는 MCMC 방법론 . 그러나 부호 문제에서 벗어날 수는 없습니다 ... 의사-마진 방법에서와 같이 밀도를 추정 할 때 사용하기가 어렵습니다.

더 생각하면, 내 결론이으로부터 실제 시뮬레이션을 생성 할 일반적인 방법이 없다는 것이다 시리즈 [보다는 혼합물 오칭을 밝혀]에서처럼, 일련의 요소> 상기 구성을 부과하지 않고, Devroye 's bible 의 위 알고리즘 . 실제로, 대부분의 (?) 밀도는 위와 같은 종류의 시리즈 확장을 허용하므로, 그렇지 않으면 일종의 범용 시뮬레이션 머신이 있음을 의미합니다.


감사합니다! 추가 참조도 감사합니다.
πr8

1
매우 철저한 답변과 참고 자료에 대한 추가 감사. 에서 정확한 시간 내에 정확한 샘플을 생성하는 데 성공했기 때문에이 답변을 받아들 입니다. 그래도 문제에 대해서는 어느 정도 계속 생각할 것입니다. 유망 보인다 내가 했어 유일한 추가 아이디어에서보기 샘플링이다 샘플링으로 , 조건부 일부 기하학적가있을 수 있습니다 것을 이 특성화에 유용한 통찰력 ( 에서 슬라이스 샘플러처럼 생각합니다 ). 건배! pp=λgμhXgλgμh{(x,y):μh(x)<y<λg(x)}
πr8

1
조건부 샘플러에 대해 잘 설명하지 못했습니다. 세트 기반 특성화는 조금 더 명확합니다 (제 생각에는). 요점은 최종 라인의 2 차원 세트에서 균일하게 샘플링 할 수 있다면 좌표에 올바른 분포가 있다는 것입니다. 이 특성화가 더 긴 합 기반의 부적절한 혼합물에 유용 할 수 있는지 여부는 여전히 남아 있습니다. (x,y)x
πr8

1
나는 또한 슬라이스 샘플러를 생각하고 있었지만 이것은 시뮬레이션의 관점에서 "정확한"것은 아니다.
시안

1

작동 할 수있는 아이디어의 초안이 있습니다. 그것은이다 정확하지는 그러나 희망 점근 적으로 정확한. 근사치를 제어하거나 그에 대해 무언가를 증명할 수있는 매우 엄격한 방법으로 바꾸려면 많은 작업이 필요할 것입니다.

먼저 Xi'an이 언급했듯이 양수 가중치와 양수 가중치를 그룹화 할 수 있으므로 와 분포는 두 가지입니다 .gh

p=λgμh

함께 . 참고가 가지고 .λμ=1λ1

내 생각은 다음과 같습니다. 에서 표본 관측 값을 원합니다 . 하다:Np

  • 에서 값을 샘플링 하여 목록에 저장λNg
  • 에서 샘플링 된 각 값에 대해 목록에서 가장 가까운 (남은) 이웃을 제거합니다.μNh

마지막에 점 을 얻습니다 . 정확히 가장 가까운 이웃 일 필요는 없지만 "충분한"지점 일뿐입니다. 첫 번째 단계는 물질을 생성하는 것과 같습니다. 두 번째 단계는 반물질을 생성하는 것과 같으며 물질과 충돌하고 취소하게합니다. 이 방법은 정확한 아니지만, 어떤 조건 하에서, 그것은 큰에 대한 정확한 점근 적이다, 생각 (거의 정확한 작은을 위해 그것을하기 위해 당신은 큰 사용할 필요가 최종 목록의 작은 임의의 부분을 먼저하고) . 나는 증거보다 더 설명적인 매우 비공식적 인 주장을하고 있습니다.(λμ)N=NNnN

고려 관찰 공간과 작은 볼륨에서 주위 르 베그 부피 . 에서 샘플링 한 후 에있는 목록의 요소 수 는 대략 입니다. 두 번째 단계 후에 대략 이 제거되고 원하는 수 됩니다. 이를 위해 볼륨의 포인트 수가 충분히 있다고 가정해야합니다.xvxϵgvλNg(x)ϵμNh(x)ϵNp(x)ϵ

이 방법은 및 의 큰 차원 또는 일부 병리에 저항 할 가능성은 거의 없지만 작은 차원에서 충분히 원활하고 "충분히 균일 한"분포로 작동 할 수 있습니다.gh

정확한 방법에 대한 참고 사항 :

나는 처음에 불연속 분포에 대해 생각했으며, 확률이 0 인 표본을 생성 할 수 있기 때문에이 방법이 정확하지 않다는 것을 분명히했다. 적어도 불연속 분포에서는 불가능 성이 입증 될 수있다. 게임의 규칙은 및 대해 정확한 "oracle"샘플러 만 사용할 수 있지만 함수로 및 를 모르는 것 입니다. 단순화를 위해 Bernoulli 분포로 제한합니다. 정확한 방법의 비 존재는 관련이 베르누이 공장의 이론 : 당신은 만들 수 있다면 A로부터 -coin을ghghx(λpμq)p-coin와 -coin, 당신은 만들 수 A로부터 -coin 불가능 것으로 알려져있다 -coin .qλppλ>1


1
나는 이것이 효과가 있음을 보여주기위한 초기 노력이 근사하고 잠재적으로 열악한 것이 될 것이라는 사실을 깨달았 기 때문에 이것을 고려했지만 거부했다. 예, 무의식적으로 작동 할 수 있지만 배포판의 "정확한"샘플링에 대한 OP의 요청을 충족하지 않습니다.
whuber

이 방법의 효율성은 정확한 수락-거부 방법과 순서가 같습니다.
시안

1
동의했다. 그러나 그것들은 상당히 다릅니다. accept-reject 메소드 는 함수로 와 를 계산해야합니다 . 나는 진정한 혼합물 에서처럼 "oracle"샘플러로서 와 샘플링만을 사용하는 데 집중했습니다 . 더 많이 생각할수록 샘플링 오라클을 기반으로 한 정확한 방법이 존재할 수 없다고 확신합니다. ghxgh
Benoit Sanchez

1
나는 그것이 일반적으로 맞다고 생각하지만, 정확한 방법 존재 하는 특별한 경우의 유용한 클래스가있을 수 있습니다 . 이는 (1) 경우에 따라 의 계산 이 쉽고 (2) 와 모두 계산할 필요가 없기 때문에이 비율 만 계산하면되기 때문입니다. g의 Hg/(g+h)gh
whuber

@BenoitSanchez 심층적 인 답변에 감사드립니다. 특히 (잠재적) 불가능의 가능성에 대한 의견에 감사드립니다. 나는 과거에 Bernoulli Factories를 보았고 그것들이 상당히 도전적이라는 것을 알았습니다. 주제를 다시 방문하여 통찰력이 있는지 확인해 보겠습니다.
πr8
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.