배경 : 현재 다양한 베이지안 계층 모델을 비교하는 작업을하고 있습니다. 데이터 는 참가자 i 및 시간 j 에 대한 웰빙의 숫자 측정 값입니다 . 참가자 당 약 1000 명의 참가자와 5 ~ 10 개의 관측치가 있습니다.
대부분의 종단 데이터 셋과 마찬가지로, 시간에 더 가까운 관측치가 더 멀리 떨어져있는 관측치보다 더 큰 상관 관계를 갖는 어떤 형태의 자동 상관을 기대합니다. 몇 가지 사항을 단순화하면 기본 모델은 다음과 같습니다.
지연없는 모델을 비교하는 곳 :
지연 모델의 경우 :
내가 얻는 결과는 다음을 나타냅니다.
- 지연 매개 변수는 약 .18, 95 % CI [.14, .21]입니다. 즉, 0이 아닙니다.
- 지연이 모델에 포함되면 평균 편차와 DIC가 모두 수백 씩 증가합니다.
- 후방 예측 검사는 지연 효과를 포함함으로써 모델이 데이터의 자동 상관을 더 잘 복구 할 수 있음을 보여줍니다.
요약하면, 0이 아닌 지연 매개 변수와 사후 예측 검사는 지연 모델이 더 낫다는 것을 나타냅니다. 그러나 이탈을 의미하고 DIC는 지연이없는 모델이 더 낫다는 것을 제안합니다. 이것은 나를 퍼즐.
내 일반적인 경험은 유용한 매개 변수를 추가하면 최소한 평균 편차를 줄여야한다는 것입니다 (복잡한 패널티 후 DIC가 개선되지 않더라도). 또한 지연 매개 변수의 값이 0이면 지연없는 모델과 동일한 편차를 얻을 수 있습니다.
질문
지연 매개 변수를 추가하여 지연 매개 변수가 0이 아니고 사후 예측 검사를 개선 한 경우에도 베이지안 계층 모델에서 평균 편차가 증가하는 이유는 무엇입니까?
초기 생각
- 나는 많은 수렴 점검 (예를 들어, 트레이스 플로트를보고 체인과 실행에 따른 편차 결과의 변화를 조사)을 수행했으며 두 모델 모두 후부에 수렴 된 것으로 보입니다.
- 지연 효과를 0으로 강제하는 코드 검사를 수행하여 지연없는 모델 편차를 복구했습니다.
- 또한 평균 이탈에서 페널티를 뺀 예상 값에서 이탈을 발생시키는 것으로 간주하여 지연 모델이 더 나빠 보이도록 만들었습니다.
- 아마도 첫 관측 전에 암시 적 시점을 어떻게 추정했는지에 문제가있을 수 있습니다.
- 이 데이터에서 지연 효과가 약할 수 있습니다.
- with를 사용하여 최대 우연을 사용하여 모델을 추정하려고
lme
했습니다correlation=corAR1()
. 지연 매개 변수의 추정치는 매우 유사했습니다. 이 경우, 지연 모델은 지연이없는 것보다 더 큰 로그 가능성과 더 작은 AIC (약 100만큼)를 가졌습니다 (즉, 지연 모델이 더 낫다고 제안했습니다). 따라서 지연을 추가하면 베이지안 모델의 편차가 낮아져 야한다는 아이디어가 강화되었습니다. - 아마도 베이지안 잔차에 특별한 것이있을 것입니다. 지연 모델이 이전 시점에서 예측 된 y와 실제 y의 차이를 사용하는 경우이 수량은 불확실합니다. 따라서, 지연 효과는 그러한 잔차 값의 신뢰할 수있는 간격에 걸쳐 작동 할 것이다.