나는 베이 즈 데이터 분석 (Bayesian Data Analysis) 책을 이 질문 (특히 6 장)과 내가 말하려는 모든 것에 대답하기위한 훌륭한 자료로 제안 할 것이다 . 그러나 베이지안이이 문제를 공격하는 일반적인 방법 중 하나는 PPP (Postior Predictive P-value)를 사용하는 것입니다. PPP가이 문제를 해결하는 방법으로 넘어 가기 전에 먼저 다음 표기법을 정의하겠습니다.
하자 관측 데이터하고 파라미터의 벡터 수. 우리는 를 관찰 할 수 있는 복제 된 데이터 로 정의 하거나, 또는 오늘 를 생산 한 실험이 동일한 모델과 동일한 방식으로 복제 된 경우 내일 보게 될 데이터로 예측할 수 있습니다. 관측 된 데이터를 생성 한 값 .θ y rep y θ와이θ와이대표와이θ
사후 예측 분포 현재 지식 상태를 고려하여
의 분포를 정의합니다. p ( y rep | y ) = ∫ Θ p ( y rep | θ ) p ( θ | y ) d θ와이대표
p ( y대표| 와이) = ∫Θp ( y대표|θ ) p ( θ | y) dθ
이제 검사 하고자하는 데이터의 측면 인 테스트 수량 을 정의하여 모델과 데이터 간의 불일치를 측정 할 수 있습니다 . 시험 량 또는 불일치 계수 , , 예측 시뮬레이션 데이터를 비교할 때 기준으로 사용되는 파라미터 데이터의 스칼라 요약이다. 테스트 수량은 베이지안 모델에서 역할을 수행하여 클래식 테스트에서 테스트 통계가 작동하는지 확인합니다. 데이터에만 의존하는 테스트 수량 인 테스트 통계에 대한 표기법 를 정의합니다 . 베이지안 맥락에서, 우리는 사후 분포 하에서 모형 모수에 의존 할 수 있도록 검정 통계량을 일반화 할 수 있습니다.T ( y )티( y, θ )티( y)
검정 통계량 의 p- 값 은
. 분포 위에 와 고정.P C = 잠 ( T ( Y 담당자 ) ≥ T ( Y ) | θ ) Y 렙 θ티( y)
피기음=Pr ( T(y대표) ≥ T( y) | θ )
와이대표θ
베이지안 관점에서, 사후 예측 분포에 대한 데이터의 적합 부족은 시험 량의 꼬리 면적 확률 또는 p- 값에 의해 측정 될 수 있고, 의 사후 시뮬레이션을 사용하여 계산 될 수있다. . 베이지안 접근법에서, 테스트 수량은 알려지지 않은 파라미터의 사후 분포로부터 도출 된 것보다 평가되기 때문에 데이터뿐만 아니라 알려지지 않은 파라미터의 함수일 수있다.( θ , y대표)
이제 테스트 수량에 의해 측정 된 것처럼 베이지안 p- 값 (PPP)을 복제 된 데이터가 관측 된 데이터보다 더 극단적 일 수있는 확률로 정의 할 수 있습니다.
여기서 의 사후 분포와 의 사후 예측 분포에 대한 확률을 취 합니다. 합동 분포 ) :
지시자 함수이다. 실제로 우리는 일반적으로 시뮬레이션을 사용하여 사후 예측 분포를 계산합니다.
피비= Pr ( T( y대표, θ ) ≥ T( y, θ ) | 와이)
θ와이대표p ( θ , y대표| 와이)피비= ∬Θ나는티( y대표, θ ) ≥ T( y| θ)p ( y대표| θ ) p ( θ | y) d와이대표디θ ,
나는
예를 들어, 의 사후 분포에서 시뮬레이션을 이미 가지고 있다면 , 각 시뮬레이션 된 대한 예측 분포에서 하나만 그릴 수 있습니다 . 이제 관절 후 분포 에서 추첨을합니다 . 사후 예측 검사는 실현 된 테스트 수량 과 예측 테스트 수량 입니다. 추정 된 p- 값은 테스트 수량이 실현 된 값과 같거나 초과하는 시뮬레이션 의 비율입니다 . 즉, 어느θ y rep θ L p ( y rep , θ | y ) T ( y , θ l ) T ( y rep l , θ l ) L T ( y rep l , θ l ) ≥ T ( y , θ l ) l = 1 , . . . , L엘θ와이대표θ엘p ( y대표, θ | 와이)티( y, θ엘)티( y담당자 l, θ엘)엘
티( y담당자 l, θ엘) ≥ T( y, θ엘)
입니다 .
L = 1 , . . . , L
전통적인 접근 방식과 달리 베이지안 모델 검사에는 "불량 매개 변수"를 처리하기위한 특별한 방법이 필요하지 않습니다. 사후 시뮬레이션을 사용하여 모델의 모든 매개 변수에 대해 내재적으로 평균을 내립니다.
추가 소스 인 Andrew Gelman은 PPP에 대한 훌륭한 문서를 제공합니다.
http://www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf