스탠


16

여기 에서 다운로드 할 수있는 Stan 설명서를 살펴 보았습니다 . 특히 Gelman-Rubin 진단을 구현하는 데 관심이있었습니다. 최초의 논문 Gelman & Rubin (1992 )은 다음과 같이 잠재적 스케일 감소 계수 (PSRF)를 정의합니다.

하자 Xi,1,,Xi,Ni 샘플링 일 마르코프 체인 및 전반적인있을 수 있습니다 M 샘플링 독립 체인. 하자 X¯i 로부터 평균 수 i 번째 체인 및 X¯ 전체 평균 수. 정의,

W=1Mm=1Msm2,
여기서 그리고 B B = N을 정의하십시오
sm2=1N1t=1N(X¯mtX¯m)2.
B
B=NM1m=1M(X¯mX¯)2.

정의 V = ( N을 - 1 PSRF는 로 추정됩니다

V^=(N1N)W+(M+1MN)B.
여기서, R= VR^ 여기서, d 개의 F = 2 V / V R ( V ) .
R^=V^Wdf+3df+1,
df=2V^/Var(V^)

349 페이지의 Stan 설명서는 와 함께 항을 무시 하고 ( M + 1 ) / M 곱셈 항도 제거합니다 . 이것이 그들의 공식입니다.df(M+1)/M

분산 추정치는 마지막으로, 잠재적 스케일 감소 통계는에 의해 정의된다 R =

var^+(θ|y)=N1NW+1NB.
R^=var^+(θ|y)W.

내가 볼 수 있듯이, 그들은 이러한 공식의 변화에 ​​대한 참조를 제공하지 않으며 그것들에 대해서도 논의하지 않습니다. 보통 너무 크지 않은, 그리고 자주 낮게 할 수 2 이므로 ( M + 1 ) / M이 짝수 경우 무시 안 D F 용어는 1로 근사시킬 수있다.M2(M+1)/Mdf

이 공식은 어디에서 왔습니까?


편집 : Gelman, Carlin, Stern 및 Rubin (제 2 판) 의 베이지안 데이터 분석 책 은 정확히 같은 수식을 가지고 있다는 점에서 " 이 수식의 출처는 어디입니까? " 라는 질문에 대한 부분 답을 찾았습니다 . 그러나이 책은 그러한 용어들을 무시하는 것이 어떻게 / 왜 정당한지를 설명하지 않습니까?


아직 출판 된 논문은 없으며 앞으로 몇 개월 안에 공식이 바뀔 것입니다.
벤 굿 리치

@BenGoodrich 댓글 주셔서 감사합니다. 이 공식을 사용하는 동기에 대해 더 말할 수 있습니까? 그리고 왜 공식이 정확히 변할까요?
Greenparker

1
현재의 분할 R-hat 공식은 체인이 하나만있는 경우에 주로 적용되는 방식입니다. 다가오는 변화는 대부분 기본 한계 사후 분포가 정상적이지 않거나 평균 및 / 또는 분산을 가질 수 있다는 사실을 다루기위한 것입니다.
벤 굿 리치

1
@BenGoodrich 예, STAN이 Rhat을 분리 한 이유를 알 수 있습니다. 그러나이 경우에도 이므로 상수 (M=2 무시할 수 없다. (M+1)/M=3/2
Greenparker

답변:


4

이후의 버전과, 비록 σ는 대체

σ^=n1nW+1nB
σ^σ^+var^+

var^+

재 배열 될 수있다

R^=m+1mσ^+Wn1mn,
R^=σ^+W+σ^+Wmn1mn.
n

Gelman & Rubin (1992)도 df / (df-2)라는 용어를 사용했습니다. Brooks & Gelman (1998)은이 df 상관이 왜 부 정확한지를 설명하고 (df + 3) / (df + 1)을 정의합니다. Brooks & Gelman (1998)의 섹션 3.1 이전 단락에서는 (d + 3) / (d + 1)을 삭제할 수있는 이유를 설명합니다.

방정식의 출처는 Brooks & Gelman (1998) 이후 (d + 3) / (d + 1)이고 Gelman & Rubin (1992)은 df / df (-2)였습니다. 그렇지 않으면 Gelman & Rubin (1992)과 Brooks & Gelman (1998)은 등가 방정식을 갖습니다 (약간의 표기법이 다르고 일부 용어는 다르게 정렬 됨). BDA2 (Gelman, et al., 2003)에는 더 이상 용어가 없습니다.σ^+Wmn1mn

R^nm

일반적으로 M은 너무 크지 않으며 종종 2만큼 낮을 수 있습니다.

나는 이것이 종종 그렇지 않다는 것을 정말로 희망한다. split을 사용하려는 경우R^

추가 참조 :

  • Brooks and Gelman (1998). 전산 및 그래픽 통계 저널, 7 (4) 434-455.

σ^2R^(σ^2+B/mn)/Wdfterm(m+1)/m
Greenparker 2018 년

혼란 스러워요. 귀하가 제공 한 링크를 통한 기사와 Stat Science 웹 페이지의 기사는 457-472 페이지에 불과합니다. 지금은 확인하지 않았지만 몇 년 전과 지난해에 코다를 확인했을 때 현재 권장되는 버전이 없었습니다.
Aki Vehtari

내 답변을 편집했습니다. Gelman & Brooks (1998)는 (m + 1) / m 항을보다 명확하게 보여 주었고, 의사 결정에 대한 (m + 1) / m 항의 효과를 대부분 취소하는 마지막 항을 놓친 것 같습니다. 섹션 3.1 이전의 단락을 참조하십시오.
Aki Vehtari

죄송합니다. 오타였습니다. 465 페이지이고 Gelman과 Rubin은 Brooks 및 Gelman (위에 언급 한)과 동일한 정확한 정의를 갖습니다. Brooks and Gelman의 Equation 1.1은 제가 쓴 내용입니다 (일부 용어를 재정렬 할 때).
Greenparker

"n이 큰 경우 두 번째 및 세 번째 용어의 효과가 의사 결정에 무시할 수 있다는 것을 알 수 있습니다."BDA와 STAN의 표현은 본질적으로 큰 n에 대한 이러한 용어를 무시하는 것에서 나온 것입니까?
Greenparker
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.