베이지안 모델에서 교차 검증의 안정성


19

k-fold cross-validation (k = 5)을 사용하여 JAGS에 Bayesian HLM을 피팅하고 있습니다. 매개 변수 추정치가 모든 접힘에 걸쳐 안정적 인지 알고 싶습니다 . 가장 좋은 방법은 무엇입니까?β

한 가지 아이디어는 의 사후 차이를 찾고 0이 차이의 95 % CI에 있는지 확인하는 것입니다. 즉, 의 95 % 간격에서 0입니다 (그리고 모든 접기 쌍에 대해 반복).β k = 1β k = 2ββk=1βk=2

또 다른 아이디어는 각 폴드의 후부를 다른 MCMC 체인으로 취급하고 이러한 유사 체인에서 Gelman의 (잠재적 스케일 감소 계수)을 계산하는 것입니다.R^

이들 중 하나가 선호되고 대안이 있습니까?


1
접기 사이에 약간의 차이가있을 것으로 예상하므로 0이 신뢰할 수있는 차이에 있는지 확인하는 것이 이상합니다. 한 가지 제안은 각 접힘에 대한 점 추정치를 계산 하고 이들의 확산을 살펴 보는 것입니다. β
Rasmus Bååth

3
교차 유효성 검사 및 베이지안 항목에 대한 일반적인 의견 : WAIC 만 계산하면 어떻습니까? LOOCV와 거의 동일하며 모든 데이터를 계속 사용할 수 있습니다.
Brash Equilibrium

1
의 후방 시뮬레이션을 어떻게 생성 하시겠습니까? β케이=1β케이=2
Stéphane Laurent

이전 공장에서의 테스트에서 우리는 0 % 수율 손실이 95 % CI에 있음을 증명해야했습니다. 적절하고 독립적 인 샘플에 대한 질문과 이항 테스트의 특성이 지배적입니다. 표본 크기가 무엇인지 알 수 있습니까?
EngrStudent-복직 모니카

답변:


2

이것이 의견이나 답변으로 자격이되는지 모르겠습니다. 나는 대답처럼 느껴지기 때문에 여기에 넣었습니다.

k- 겹 교차 검증에서는 데이터를 k 그룹으로 분할합니다. "기본 사항"까지도 다루는 경우 k 개의 각 빈에 대해 균일하게 무작위로 멤버를 선택하는 것입니다.

데이터를 말할 때 각 행은 샘플로, 각 열은 차원으로 생각합니다. 변수 중요성, 열 중요도를 결정하기 위해 다양한 방법을 사용하는 데 익숙합니다.

당신이 생각 운동으로서 "교과서"균일 한 무작위로 출발하여 어떤 행이 중요한지를 결정한다면 어떨까요? 한 번에 하나의 변수에 정보를 제공 할 수도 있지만 더 많은 정보를 제공 할 수도 있습니다. 다른 행보다 덜 중요한 행이 있습니까? 아마도 많은 점들이 유익하고 아마도 몇 점일 것입니다.

변수의 중요성을 알면 아마도 중요도에 따라 묶을 수 있습니다. 가장 중요한 샘플로 하나의 빈을 만들 수도 있습니다. "k"의 크기를 정의 할 수 있습니다. 이런 식으로 "가장 유익한"kth 버킷을 결정하고 다른 버킷과 비교하여 가장 유익한 버킷과 비교합니다.

이를 통해 모델 매개 변수의 최대 변동에 대한 아이디어를 얻을 수 있습니다. 하나의 형태 일뿐입니다.

k 번째 버킷을 분할하는 두 번째 방법은 영향의 크기와 방향에 의한 것입니다. 따라서 매개 변수 또는 매개 변수를 한 방향으로 흔드는 샘플을 하나의 버킷에 넣고 같은 매개 변수 또는 매개 변수를 반대 방향으로 흔드는 샘플을 다른 버킷에 넣을 수 있습니다.

이 형식의 매개 변수 변형은 정보 밀도가 아니라 정보 유형에 따라 변수를 더 넓게 쓸 수 있습니다.

행운을 빌어 요.


0

완전한 대답은 아니지만 몇 가지 차이점으로 인해 95 % CI에 0이 없으면 0.05 수준에서 동일하지 않다고 말하는 것이 안전합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.