레코딩 후 MCMC 반복을 밀도 추정에 사용할 수 있습니까?


10

번인 후 히스토그램 또는 커널 밀도 추정과 같은 밀도 추정에 MCMC 반복을 직접 사용할 수 있습니까? 내 관심사는 MCMC 반복이 거의 동일하게 분산되어 있지만 반드시 독립적 일 필요는 없다는 것입니다.

MCMC 반복에 Thinning을 추가로 적용하면 어떻게됩니까? 내 관심사는 MCMC 반복이 상호 관련이 없으며 아직 독립적이지 않다는 것입니다.

실제 분포 함수의 추정으로 경험적 분포 함수를 사용하여 배운 근거 는 경험적 분포 함수가 iid 샘플을 기반으로 계산되는 Glivenko-Cantelli 정리를 기반으로합니다. 히스토그램 또는 커널 밀도 추정값을 밀도 추정값으로 사용하기위한 근거 (점근 적 결과?)가있는 것 같지만 기억이 나지 않습니다.

답변:


9

MCMC 샘플링으로 밀도를 추정 할 수 있습니다.

명심해야 할 것은 히스토그램과 KDE가 최소한 간단한 경우 (예 : Gibbs 샘플링)에서는 편리 하지만 밀도를 훨씬 더 효율적으로 추정 할 수 있다는 것입니다.

특히 Gibbs 샘플링을 고려하면 샘플링하는 조건부 밀도를 평균 밀도 추정값을 생성하는 데 샘플 값 대신 사용할 수 있습니다. 결과는 매우 매끄 럽습니다.

접근 방식은

Gelfand and Smith (1990), "마진 밀도 계산에 대한 샘플링 기반 접근"
Journal of the American Statistical Association , Vol. 85, No. 410, 398-409 쪽

( Gyerer 는 샘플러 의존성이 충분히 높으면 항상 분산을 줄이지는 않으며 반드시 그렇게하는 조건을 제공한다고 경고합니다)

이 접근법은 예를 들어 Robert, CP 및 Casella, G. (1999) Monte Carlo Statistical Methods 에서도 논의 됩니다.

독립성이 필요하지 않으며 실제로 평균을 계산하고 있습니다. 밀도 추정치 (또는 cdf) 의 표준 오차 를 계산 하려면 의존성을 고려해야합니다.

물론 동일한 개념이 다른 기대치에도 적용되므로 다른 많은 종류의 평균 추정치를 향상시키는 데 사용될 수 있습니다.


감사! 한계 분포는 공동 분포에 대한 기대치이므로 상관 분포를 추정하기 위해 상관 된 MCMC 반복을 사용하는 것은 중요하지 않습니까? 상관 분포를 사용하여 공동 분포를 추정하면 어떻게됩니까? 아직 괜찮아?
Tim

아니 그게 내 뜻이야 우리가 다루고있는 추정량은 평균치이며, 그 기대치로 해석 될 수있는 인구 량을 추정하는 데 사용되고 있습니다. 예, 종속 추첨을 ​​사용하여 같은 의미에서 관절 분포를 추정 할 수 있습니다.
Glen_b-복지 주 모니카

왜 공동 분포를 추정하기 위해 상관 된 반복을 사용할 수 있습니까? 공동 배포가 무언가를 기대하지 않기 때문에 아니오라고 생각합니다. Glivenko–Cantelli 정리에서 경험적 cdf는 iid 샘플에서 계산됩니다.
Tim

밀도의 경우 여기 에 설명 된 샘플 추정치와 같은 것을 고려할 수 있습니다 (더 좁아진 빈을 가진 히스토그램의 한계로 간주 될 수 있음). 그것은 평균이며, 기대치는 밀도입니다. cdf와 관련하여 경험적 cdf로 무언가를 수행하여 평균 형태로 만들 수 있는지 고려할 수 있습니다. 두 아이디어는 공동 분포의 표본으로 작동하는 것 같습니다.
Glen_b-복지국 Monica

3

이력서

관찰 가능 값의 평균 값이 번인 이후이므로 무조건 실제 값에 근접하기 때문에 MCMC 반복을 직접 사용할 수 있습니다.

그러나이 평균의 분산은 샘플 간의 상관 관계에 영향을받습니다. 즉, MCMC에서와 같이 샘플이 서로 관련되어있는 경우 모든 측정 값을 저장하면 실제 이점이 없습니다.

이론적으로 N 단계 후에 측정해야합니다. 여기서 N은 측정중인 관찰 가능 항목의 자기 상관 시간 순서입니다.

상해

xttf

xtRf=fa(x)x[a,a+Δ]xtP(x)

f

F=1Ni=1Nf(xi)

FP(x)

F=1Ni=1Nf(xi)=f(x)

당신이 얻고 싶은 것입니다.

F2F2

i=1Nj=1Nf(xi)f(xj)

xtj=i+ΔfR(Δ)

요약하면 다음과 같습니다.

  • 계산적으로 모든 측정 값을 저장하는 데 비용이 들지 않으면 할 수 있지만 일반적인 수식을 사용하여 분산을 계산할 수는 없습니다.

  • ττ


이것은 특정 질문에 대한 답이 아니며, Markov 체인의 샘플을 사용 하여 후방 의 유효한 밀도 추정기 를 구성하는 것과 관련이 있습니다. 선형 함수에 대한 우리의 추정치의 표준 오차가 독립성에 기초한 순진한 추정치보다 높다는 점을 잘 알고 있지만, 밀도 추정기를 구성하는 것이 좋은 아이디어라면 OP는이 답변을 바탕으로 알지 못합니다. 커널 평활화 (예 : iid 샘플링에서도 에서 수렴하지 않음)n

희석은 유용한 데이터의 낭비 일뿐입니다. 추정값의 분산을 줄이지 않습니다. 이 질문에 대한 코멘트를보십시오 : stats.stackexchange.com/a/258529/58675
DeltaIV

@DeltaIV, 예. 여기서 요점은 얇아 지는지 여부는 관련 시간 척도가 여전히 자기 상관 시간이라는 것입니다.
Jorge Leitao
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.