중요도 샘플링으로 생성 된 Monte Carlo 추정치 결과


13

지난 1 년 동안 중요도 샘플링을 상당히 밀접하게 진행해 왔으며 도움을 받기를 희망하는 몇 가지 개방형 질문이 있습니다.

중요도 샘플링 체계에 대한 나의 실제 경험은 때때로 환상적인 저 분산 및 저 바이어스 추정을 생성 할 수 있다는 것입니다. 그러나 표본 분산이 적지 만 치우침이 매우 높은 오류 예측이 더 자주 발생하는 경향이 있습니다.

중요도 샘플링 추정의 유효성에 어떤 종류의 요소가 영향을 미치는지 정확하게 설명 할 수 있는지 궁금합니다. 특히 궁금합니다.

1) 바이어 싱 분포가 원래 분포와 동일한지지를 갖는 경우 중요도 샘플링 추정값이 올바른 결과로 수렴되도록 보장됩니까? 그렇다면 왜 실제로 그렇게 오래 걸립니까?

2) 중요도 샘플링을 통해 생성 된 추정치의 오차와 바이어 싱 분포의 "품질"사이에 정량화 가능한 관계가 있습니까 (즉, 제로 분산 분포와 얼마나 일치하는지)

3) 부분적으로 1)과 2)를 기반으로-간단한 Monte Carlo 방법보다 중요도 샘플링 설계를 사용하기 전에 분배에 대해 알아야 할 '얼마나 많은'을 정량화 할 수있는 방법이 있습니까?

답변:


8

중요도 샘플링은 기본 Monte Carlo 접근 방식과 정확히 동일한 유효성 검사를 수행합니다. 핵심 은 기본 Monte Carlo 입니다. 실제로, 이것은 참조 측정 값의 변경에 에서 따라서 두 경우 모두, 즉 또는 에서 시뮬레이션하는지 여부에 따라 많은 수의 법칙에 의해 수렴이 보장됩니다 . 또한, 라는 용어 가 유한하면 중심 제한 정리도 적용되고 수렴 속도가 인 h ( x ) f ( x )

h(x)f(x)dx
fgh2(x)f2(x)
h(x)f(x)g(x)g(x)dx
fgO(1/
h2(x)f2(x)g(x)dx
O(1/O(1/n). "실제로 오래 걸리는"경우 CLT에서 위의 분산 계수가 상당히 클 수 있기 때문입니다. 그러나 속도는 일반 Monte Carlo 와 동일하다고 주장합니다 .O(1/n)

중요도 샘플링 분포의 품질은 따라서 상기 분산 인자와 직접 관련되며, 이는 비례하는 "제로 분산 분포"에 대해 0이된다 .|h(x)|f(x)


2
OP가 편향되어 있지만 분산이 작은 것처럼 보이는 작은 분산 추정기를보고한다고 가정하면 자체 표준화 된 중요도 샘플링에 대해 질문 할 수 있습니다. 좋은 예 Radford Neal의 고조파 평균 추정기에 대한 분산을 참조하십시오. 분산이 0 인 중요도 샘플링 추정값을 취하고 넌센스를 반환합니다. 이것이 정기적으로 중요도 샘플링에서 발생하지는 않지만 확실하지는 않습니다.
deinst

이것이 OP의 의도가 아니더라도, 자체 정규화가 끔찍하게 잘못 될 때를 알아내는 방법에 대한 일부 포인터에 관심이 있습니다.
deinst

@deinst 나는 자체 정규화 절차와 그 함정을 알지 못했기 때문에 이것에 감사드립니다! 어쨌든 문제는 IS 체계의 특성과 관련이 있다고 생각하므로 아이디어가있는 경우이 아이디어를 좀 더 탐구하고 싶습니다.
Berk U.

@deinst 내가 사용하는 IS 체계는 샘플링 분포 없이도 작동하도록 설계되었습니다 . 이 체계는 먼저 MCMC 프로 시저를 사용 하여 제로 분산 분포 에서 포인트 을 시뮬레이션 합니다. 다음으로 에서 커널 밀도 추정을 사용 하여 합니다. 손으로 를 사용하면 IS 추정값을 $ \ sum {h (y_i) f (y_i) / hat {g (y_i)} $로하여 새로운 점 을 샘플링 할 수 있습니다g(x)Mx1..xMg(x)=h(x)f(x)/h(x)f(x)dxx1..xMg(x)^g(x)^Ny1...yN
Berk U.

비모수 추정값을 사용하면 Monte Carlo 변동성보다 높은 차수의 변동성이 발생하므로 권장하지 않습니다.
Xi'an

7

시안은 표준 중요도 샘플링 결과를 다루었습니다. 와 를 알 수없는 정규화 상수 까지만 알고있는 자체 정규화 중요도 샘플링에 대해 문의 하는 경우 시안 및 카셀라 서적 Monte Carlo Statistical MethodsMonte 소개 에 대한 4 장에서 일부 기술에 대해 설명합니다. R을 사용한 카를로 방법 . 시안은 내가 할 수있는 것보다 이것에 대해 훨씬 더 자세하게 설명 할 수 있다고 확신합니다.fg

자체 정규화 중요도 샘플링을 사용하면 밀도 함수가 비례하는 분포에서 을 선택하여 를 근사하려고합니다. 컴퓨팅 델타 방법을 사용하여 (기본적으로 테일러 시리즈 의 선형 항을 취함 ) 을 과

δ=h(x)f(x)dx
x1,,xng(x)
δ^=i=1nh(x)f(x)/g(x)i=1nf(x)/g(x).
X/Yω(X)=f(x)/g(X)
Eg(δ^)δ+δVarg(ω(X))Covg(ω(X),h(X)ω(X))n
Varg(δ^)Varg(h(X)ω(X))2δCovg(ω(X),h(X)ω(X))+δ2Varg(ω(X))n.

따라서 직관적으로 작은 바이어스와 작은 분산을 얻으려면 를 작게하고 는 긍정적입니다. 불행히도 이러한 근사값은 완벽하지 않습니다 (분산과 공분산을 정확하게 결정하는 것은 초기 문제를 해결하는 것만 큼 어려울 수 있습니다).COV g ( ω ( X ) , H ( X ) ω ( X ) )Varg(ω(X))Covg(ω(X),h(X)ω(X))


감사합니다. 나는 표기법에 대해 조금 확신 할 수 없으며 오타가 있는지 확실하지 않습니다. 명확히하기 위해 설명에서 와 는 정확히 무엇 입니까? GX/YG
Berk U.

@BerkUstun 대문자 G는 작은 문제에 대한 오타입니다. X / Y는 랜덤 변수의 일반적인 비율입니다. IIRC이 모든 것은 Liu의 Monte Carlo 저서 (제목에 과학적인 것)에 설명되어 있습니다.
deinst

@deinst : 좋은 지적입니다! 실제로, 자체 정규화 된 버전의 특성은 편향되지 않은 중요도 샘플링 추정기의 특성과 상당히 다릅니다. 이론적으로 분모를 추정하려면 별도의 중요도 샘플러가 필요합니다.
시안
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.