베이지안 : 우도 함수의 노예?


62

Larry Wasserman 교수는 자신의 저서 인 "All of Statistics"에서 다음과 같은 예를 제시합니다 (188 페이지 11.10). f ( x ) = c 와 같은 밀도 가지고 있다고 가정하자f -여기서 g알려진(음이 아닌, 적분 가능) 함수이며 정규화 상수 c > 0알 수 없습니다.f(x)=cg(x)gc>0

우리는 c = 1 /g ( x )를 계산할 수없는 경우에 관심이 있습니다 . 예를 들어, f 가 매우 높은 샘플 공간에서 pdf 인경우 일 수 있습니다.c=1/g(x)dxf

c 는 알 수 없지만 로부터 샘플링 할 수있는 시뮬레이션 기법이 있다는 것은 잘 알려져 있습니다. 따라서 퍼즐은 다음과 같습니다. 어떻게 그러한 표본에서 c 를 추정 할 수 있습니까?fcc

Wasserman 교수는 다음 베이지안 솔루션을 설명합니다. c 보다 우선시하십시오 . 가능성은 L x ( c ) = n i = 1 f ( x i ) = n i = 1 ( cπc 따라서 사후 π ( c x ) c n π ( c ) 는 표본 값 x 1 , , x n에 의존하지 않습니다. 따라서 베이지안은 표본에 포함 된 정보를 사용하여 c 에 대한 추론을 할 수 없습니다.

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

Wasserman 교수는 "베이지 아인은 우도 기능의 노예입니다. 우도가 악화되면 베이지안 추론도 마찬가지입니다"라고 지적합니다.

동료 스태커에 대한 내 질문은 :이 특정 예와 관련하여 베이지안 방법론에서 무엇이 잘못 되었습니까?

추신 : 교수 Wasserman은 친절하게 그의 답변에서 설명했듯이, 그 예는 Ed George에 의한 것입니다.


10
이 예는 베이지안 분석이 아닌 수치 적분을 수행하는 기괴한 비효율적 인 방법처럼 들립니다.
whuber

2
How do you say 베이지안은 아무 것도 배우지 않습니다 . 이 경우라면 우리는 것 π ( C를 | X ) α π ( C ) . 분명히 그렇지 않습니다. cπ(c|x)π(c)
확률

2
나는이 예를 정말로 이해하지 못한다. 경우 에 의존하지 않는 C 그것은 다음과 같이 데이터가 정보 아님 놀랍지 아니다 에어콘 만의 형태에 따라 g ( ) 와 동일하다 n 개의 Y의 샘플? 나는 분명히 미묘한 (또는 미묘하지 않은) 요점을 놓치고 있습니다. g()ccg()any
Dikran Marsupial 2009 년

나는 공식적으로 베이지안 방법 고안 한 서안의 금기하지 않습니다 젠의 반대 @ 극복을 관심의 부족을 그냥 수치 적분의 정확성을 평가하는 끝납니다.
phaneron

1
Larry의 블로그에 대한 후속 조치 : normaldeviate.wordpress.com/2012/10/05/…
Zen

답변:


43

이것은 내 논문 (인터넷에만 게시 됨) "래리 워 저먼의 예"[ 1 ]와 나, Wasserman, Robins 및 Wasserman의 블로그에 대한 다른 논평자 사이에서 논의되었습니다 : [ 2 ]

짧은 대답은 Wasserman (및 Robins)은 고차원 공간에서의 선행은 "필수"라는 관심 파라미터가 거의 확실성에 따라 선험적으로 알려져 있거나 명확하게 관련된 문제 (선택 바이어스)를 암시하는 특성을 가지고 있음을 시사함으로써 역설을 생성한다는 것입니다. 거의 확실하지 않은 것으로 알려져 있습니다. 실제로 현명한 선행에는 이러한 특성이 없습니다. 이것을 요약하기 위해 요약 블로그 게시물을 작성하는 중입니다. Hameling과 Toussaint의 Wasserman과 Ritov가 고려한 모범적 인 베이지안 접근 방식을 보여주는 훌륭한 2007 년 논문이있다 :“Robins-Ritov의 문제에 대한 베이지안 추정기”[ 3 ]


12
기부 해 주셔서 감사합니다. 심즈 교수님. 다음 답변에 동의하십니까? 추신 : 이제 SE에 노벨상을 게시했습니다. 어떻게에 대한? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen

1
@ChrisSims Sims 교수 여러분의 권위있는 답변으로 제 답변을 날려 버려 주셔서 감사합니다!
Michael Chernick

4
이 답변이 가장 높은 투표 총액을 가지고 있다는 사실에 놀랐습니다 (현재). Wasserman 교수가 지적한 것처럼, Sims 교수의 대답은 Zen이 요구 한 것과 완전히 다른 퍼즐에 관한 것입니다. 나는 대부분의 사람들이 Sims가 제공 한 링크를 읽고 이해하지 않고 그것을 찬성했다고 추론합니다.
Cyan

3
청록색, 당신은이 퍼즐에 관한 Sim 교수의 의견을 Link [1], WassermanComment.pdf, p. 섹션 VII. Postscript 2.
madprob

43

이 예에서 esp. 베이 즈 우도-wallahs에의 전위로 비판 .... 상수 동일되고, 공지 된 1 /X g ( X ) (D) X 경우 C는 샘플 주어진 화상에서 유일한 "알 수 없음"인 X 1 , ... , X의 N은 다음 문제에 대한 통계적인 문제가없는 나는 존재 동의하지 않는 추정량C를 . 도 전과c

1/Xg(x)dx
cx1,,xncc(위의 값에서 Dirac 질량 이외). 이것은 최소한 통계적인 문제가 아니라 수치적인 문제입니다.

샘플 은 (자주 사용되는) 밀도 추정을 통해 c 의 수치 적 근사치를 제공하는 데 단지 호기심을 가질 수 있습니다 . 대안적인 통계적 접근에 대한 비판은 아닙니다 : 나는 베이지안 밀도 추정을 사용할 수도 있습니다 ...x1,,xnc


4
가능성이 진정한 조건부 밀도이면 적절한 사전으로 시작하여 부적절한 후부로 끝날 수 없습니다!
Xi'an

πcπX1,X2,,XnccRx=rnorm(100,c,1)ccxcc

3
나는 드 파 네티가 아니기 때문에 대답 할 수 없습니다!
시안

3
f(x1,,xn|c)

40

나는 그 예가 이상하다는 데 동의한다. 나는 그것이 정말로 퍼즐의 더 많은 것을 의미했다. (예는 실제로 Ed George 때문입니다.)

cc

여하튼, 종이

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae 및 Z. Tan (2003), Monte Carlo 통합에 대한 통계 모델 이론 , J. Royal Statistic. Soc. B , vol. 65 번 3, 585–604

(토론으로) 본질적으로 동일한 문제를 처리합니다.

Chris Sims가 그의 대답에서 암시하는 예는 매우 다른 본성입니다.


3
Wasserman 교수 여러분의 모범과 역사를 설명해 주셔서 감사합니다. 나는 스탠포드에서 대학원생이었고 에드 조지와 겹쳤다. 스탠포드 통계청은 Efron과 Stein과 함께 우리가 경험적인 Bayes의 경계에 있었지만 그 당시에 Bayesian이 아니 었습니다. 부서는 매우 개방적이었다. 그리고 Dennis Lindley는 Bayesian 통계학에서 내가 한 여름을 보냈다는 통계를 주었다. 어쨌든 Ed는 본격적인 베이지안으로 개종했으며 심지어 인형에 대한 Gibbs 샘플링에 대한 논문을 썼습니다 (물론 제목은 아니지만).
Michael Chernick

1
나는 당신의 작은 책 "모든 통계"와 "비모수의 모든 것"을 읽었습니다.
Michael Chernick

1
공교롭게도, 나는이 논문에 대해 Kong et al. (2003), 분포보다는 측정에 그룹 변환을 사용하는 효율성에 대해 대부분 부정적입니다. 최근에 Xiao-Li는 나를보다 긍정적 인 논문 인식으로
Xi'an

1
"숫자 적분을 할 수 없다고 가정하십시오." 나는 상당한 노력에도 불구하고 논리적 불확실성 (이것의 예)이 분석에 저항했다는 것을 이해한다.
John Salvatier

cgg(x1)g(x2)g

23

g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

fXiC(c) cc=(g(x)dx)1CCπ

x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

그 이후의 모든 것은이 문제에서 상속됩니다. 특히, 베이 즈 정리로 계산 된 후부는 가짜입니다. 다음을 쉽게 알 수 있습니다. 적절한 사전 이라고 가정하십시오.

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

이것은 불가능합니다. 우리는 적절한 사전 시작으로 시작하면 모든 가능한 샘플에 대해 후방이 부적절 할 수 없다는 것을 알고 있습니다.


+

1
안녕 마이클 물론 당신은 할 수 있습니다 : 감마, 대수 등, 나는 이것이 어떻게 대답과 관련이 있는지 보지 못합니다. 아마 당신이 무슨 말을하는지 이해할 수 없습니다.
Zen

글쎄, 나는 당신의 주장을 따르는 데 어려움을 겪고 있습니다. f에 대한 조건부 밀도는 하나의 c에 대해서만 존재하지만 사실은 아닙니다. 나는 가능성에 대한 표현이 왜 유효하지 않은지, 그리고 적절한 사전과 가정을 통해 모순에 의한 증거를 얻는 방법을 알지 못합니다.
Michael Chernick

문제의 핵심은 데이터가 실제로 c와 독립적이며 c에 대한 정보가 없다는 것입니다. 나는 당신이 c를 포함하는 우도 함수가 있다고 말할 수 있다고 생각하지만,이 우도는 c의 함수로 최대화 될 수 없습니다. c를 선택할 때마다 f = cg가 있다고 생각합니다.
마이클 체 르닉

4
g(.)g(.)p(c|g(.))=δ(c0g(x)dx) .)입니다. 다른 이전의 것을 사용하는 것은 논리적으로 잘못되었습니다.p(Z|XY)p(Z|X)YZX

11

이 예는 약간 이상하고 고안된 것입니다. 가능성이 잘못되는 이유는 g가 알려진 함수 이기 때문 입니다. 유일하게 알려지지 않은 매개 변수는 가능성의 일부가 아닌 c입니다. 또한 g가 알려져 있으므로 데이터는 f에 대한 정보를 제공하지 않습니다. 실제로 그런 것을 언제 보십니까? 따라서 후부는 이전과 비례하고 c에 대한 모든 정보는 이전에 있습니다.

그래도 생각 해봐 빈번한 사람들은 최대한의 가능성을 사용하므로 잦은 운동가는 때때로 가능성 기능에 의존합니다. 잦은 주의자는 다른 방법으로 매개 변수를 추정 할 수 있습니다. 그러나이 요리 문제에는 매개 변수 c가 하나만 있으며 c에 대한 데이터에는 정보가 없습니다. g가 알려져 있기 때문에, 데이터주기로부터 수집 될 수있는 알려지지 않은 파라미터와 관련된 통계적 문제는 없다.


cf^fxc^=f^(x)/g(x)c

4
@ 젠 좋아요 예를 들어 보죠. 왜 데이터를 전혀 수집하지 않습니까? 우리는 알고있다 g. 따라서 우리는 수치 적으로 통합하여 c를 추정하지 않고도 원하는 수준의 정확도로 c를 결정할 수 있습니다! 우리가 c를 계산할 수 없다는 가정은 g를 x의 함수로 알고 있지만 그것을 통합 할 수 없다는 것을 의미합니다! 나는 그의 모범이 약하다고 생각하고 논쟁도 마찬가지이며 나는 그의 책이 일반적으로 말하는 것을 좋아합니다.
Michael Chernick

11

베이지안 계산을 수행하는 표준 방법이 MCMC 샘플의 빈번한 분석을 사용하는 것이 아이러니가 있습니다. 이 예에서는 고려할 수 있습니다.c 는 계산하려는 한계 가능성과 밀접한 관련 있지만 베이지안 방식으로 계산을 시도한다는 의미에서 베이지안 순수 주의자가 될 것입니다.

g()g()g()g()

g()g()


이것에 더 많은 투표가 없다는 것에 놀랐습니다. 이것은 문제의 핵심에 도달합니다. 이것은 어떤 시점에서 함수를 평가할 수 있기 때문에 함수가 무엇인지 "알고"모호한 주장입니다. 함수를 "알고"있다고 ​​말하는 더 적절한 기준은 연속적인 선형 함수를 평가하는 능력이라고 생각합니다.
Nick Alger

@Nick Alger : 사람들은 likley가 관심을 잃었습니다. 나는 그것이 베이 즈라고 확신하지 않기 때문에 그것을지지하지 않습니다-세트 D의 xi (xi, f (xi))는 연구에서 관찰되거나 무작위로 생성 된 xi를 참조합니까? 첫 번째 경우 Bayes이지만 몇 초의 컴퓨팅 시간 (정상적으로 작동하지 않음) 또는 Bayes가 아닌 데이터에 대한 간단한 MC로 이길 수 있습니다.
phaneron

-2

NULL (데이터가 생성되지 않음)을 포함 하도록 가능한 알려진 항목 의 정의를 확장 할 수 있습니다 (데이터 확장과 유사하여 관찰 되었지만 손실 데이텀에 대해 누락 된 데이터를 허용 함 ).

적절한 사전 이라고 가정하십시오.

π(c)=1c2I[1,)(c).
이제 x에 대한 데이터 모델을 정의하십시오.

c=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi) {a for any}

faXaC(xac)=0

따라서 후자는 0 또는 1 (적절)이지만 위의 데이터 모델의 가능성은 사용할 수 없습니다 (데이터 모델에 필요한 조건을 결정할 수 없기 때문에).

그래서 당신은 ABC를합니다.

이전에서 "c"를 그립니다.

(g(x)dx)1 일부 수치 적분에 의해 "C"를 계속하는 경우 그 근사 - "C"<엡실론.

유지 된 c는 실제 후부의 근사치입니다.

(근사치의 정확도는 엡실론과 해당 근사치에 대한 컨디셔닝의 충분성에 달려 있습니다.)


-5

π(c|x)=(Πig(xi))cnπ(c),
{xi}

2
xf(xc)π(c)dci=1ng(xi)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.