밀도 추정에 베이지안 접근법이 있습니까?


22

연속 랜덤 변수 의 밀도를 추정하고 싶습니다 . 내가 배운 한 가지 방법은 Kernel Density Estimation을 사용하는 것입니다.X

그러나 이제 다음 줄을 따라 베이지안 접근 방식에 관심이 있습니다. 나는 처음에 가 분포 따른 다고 믿는다 . 나는 읽습니다 . 새로운 수치를 기반으로 를 업데이트하는 방법이 있습니까?F n X FXFnXF

나는 내가 모순되는 것처럼 들린다. 내가 이전의 분포로서 만을 전적으로 믿는다면 , 어떤 데이터도 나를 설득 시켜서는 안된다. 그러나 가 이고 내 데이터 포인트가 과 가정 합니다. 보았을 때 분명히 이전 버전을 고수 할 수는 없지만 어떻게 업데이트해야합니까?F U n i f [ 0 , 1 ] ( 0.3 , 0.5 , 0.9 , 1.7 ) 1.7FFUnif[0,1](0.3,0.5,0.9,1.7)1.7

업데이트 : 의견의 제안에 따라 Dirichlet 프로세스를 살펴보기 시작했습니다. 다음 표기법을 사용하겠습니다.

GDP(α,H)θi|GGxi|θiN(θi,σ2)

이 언어로 원래 문제를 해결 한 후 다음에 관심이있는 것 같습니다. . 어떻게합니까?θn+1|x1,...,xn

에서 노트 세트 (2 페이지), 저자의 예를했다 (Polya Urn Scheme). 이것이 관련이 있는지 확실하지 않습니다.θn+1|θ1,...,θn

업데이트 2 : 또한 (노트를 본 후) 묻고 싶습니다 : 사람들 은 DP에 대해 를 어떻게 선택 합니까? 무작위 선택처럼 보입니다. 또한 사람들 은 DP에 대한 사전 를 어떻게 선택 합니까? 대한 내 사전으로 대한 사전을 사용해야 합니까?H θ HαHθH


2
"내가 전 분포로 F만을 전적으로 믿는다면, 다른 데이터는 저를 설득해서는 안됩니다." 이것은 베이지안 추론의 반설입니다. 이것은 한 손으로 믿는 것과 다른 손 으로 보는 것을 취하고 그것들을 모으고 나오는 것을 보는 선에 더 가깝습니다. 씻고 헹구고 반복하십시오.
Alexis

디 리틀 렛 프로세스에 대해 알고 있습니까?
niandra82

마지막 단락을 무시합니다.이 문제에는 두 가지 일반적인 옵션이 있습니다. 하나는 유한 법선 (교차 검증 가능성에 따라 몇 개의 법선을 선택할 수 있는지) 또는 @ niandra82가 제안한대로 법선의 무한 혼합입니다. 이것은 Gibbs 샘플링 또는 변형 추론과 같은 방법으로 수행 할 수 있습니다. 이러한 방법에 익숙하십니까?

또한이 KDE를 어떻게 사용할 계획입니까? 선택한 방법과 크기 (무한, 유한)는 목표에 따라 달라질 수 있습니다.

이것은 모델 선택 문제 또는 철학적 문제처럼 들립니다. 실제로 베이지안 추론에 사용할 가능성은 이전의 신념에도 영향을
미칩니다

답변:


2

베이지안 접근 방식을 원하므로 추정하고자하는 것에 대한 사전 지식이 필요합니다. 이것은 배포 형태입니다.

이제 이것이 배포판을 통한 배포판이라는 문제가 있습니다. 그러나 후보 분포가 일부 매개 변수화 된 분포 클래스에서 나온 것으로 가정하면 문제가되지 않습니다.

예를 들어, 데이터가 알려지지 않은 평균이지만 분산이 알려진 가우스 분포라고 가정하려면 평균보다 우선합니다.

θ

θ^=argmaxθ(Pr[x1,x2,...,xn,θ])

어디에

Pr[x1,x2,...,xn,θ]=Pr[x1,x2,...,xn|θ]Pr[θ]=Pr[θ]i=1nPr[xi|θ] .

사전 확률 와 후보 분포 는 더 많은 데이터 포인트가 수신 될 때 쉬운 (닫힌 양식) 업데이트를 발생시킵니다.Pr[θ]Pr[x|θ]


1

밀도 추정을 위해 필요한 것은 아닙니다

θn+1|x1,,xn .

노트 수식 디리클레 프로세스의 예측 분포 reffers.θn+1|θ1,,θn

밀도 추정의 경우 실제로 예측 분포 에서 샘플링해야합니다.

π(dxn+1|x1,,xn)

위의 분포에서 샘플링은 조건부 방법 또는 한계 방법으로 수행 할 수 있습니다. 조건부 방법에 대해서는 Stephen Walker의 논문을보십시오 [1]. 한계 방법에 대해서는 Radford Neal 논문 [2]에서 확인해야합니다.

concnetration 매개 변수의 경우 Mike West [3]은 대한 전체 조건부 분포를 포함하여 MCMC 절차를 추론하는 방법을 제안합니다 . MCMC 절차에서 농도 를 업데이트하지 않기로 결정한 경우 큰 값을 선택하면 Dirichlet 프로세스에서 얻은 고유 값 수가 고유 값 수보다 큽니다. 작은 숫자 가 사용될 때.α α ααααα

SG, Walker (2006). 슬라이스로 Dirichlet Mixture 모델 샘플링. 통계적 커뮤니케이션 (시뮬레이션 및 계산).

[2] Dirichlet Process Mixture 모델에 대한 RM, Neal (2000) Markov Chain Monte Carlo 방법. 전산 및 그래픽 통계 저널. 9 권 2 호, pp 249-265

[3] M., West (1992). Dirichlet 공정 혼합 모델의 하이퍼 파라미터 추정. 기술 보고서


-1

새로운 수치를 기반으로 F를 업데이트하는 방법이 있습니까?

그것에 대한 정확한 것이 있습니다. 베이지안 추론의 주요 아이디어입니다.

p(θ|y)p(y|θ)p(θ)

p(θ)Fp(y|θ)θ

p(θ)


3
FX1,,XniidFFL(F)=i=1NdFdx|x=xiF
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.