최근에이 논문에서 설명하는 파레토 스무딩 중요도 샘플링 휴가 교차 검증 (PSIS-LOO)을 사용하기 시작했습니다.
- Vehtari, A., & Gelman, A. (2015). 파레토는 중요도 샘플링을 완화했습니다. arXiv 프리 프린트 ( link ).
- Vehtari, A., Gelman, A., & Gabry, J. (2016). leave-one-out 교차 검증 및 WAIC를 사용한 실제 베이지안 모델 평가. arXiv 프리 프린트 ( 링크 )
이는 단일 MCMC 실행으로 LOO-CV를 수행 할 수 있으므로 샘플 외부 모델 평가에 대한 매우 매력적인 접근 방식을 나타내며 WAIC와 같은 기존 정보 기준보다 낫습니다.
PSIS-LOO은 근사이 예상 지수로, 신뢰할 수있는, 즉 주어진 여부를 알려주는 진단이 케이 난을 경험적 중요성 weigths의 분포 (데이터 포인트 당 하나 개의 무게)의 꼬리에 장착 파레토 분포를. 요컨대, 추정 무게 이면 나쁜 일이 발생할 수 있습니다.
슬프게도, 나는이 방법을 내 문제에 적용 할 때 관심있는 대부분의 모델에 대해 \ hat {k} _i \ gg 0.7 의 큰 부분을 발견했습니다 . 놀랍게도,보고 된 LOO 로그 가능성 중 일부는 분명히 다른 데이터 셋과 비교하여 무의미합니다. 이중 점검으로, 나는 전통적인 (그리고 시간 소모적 인) 10 배 교차 검증을 수행하여 실제로 위의 경우 PSIS-LOO가 끔찍한 잘못된 결과를 제공한다는 것을 발견했습니다 (거꾸로, 결과는 10과 매우 잘 일치했습니다) ) 인 모델의 경우 CV를 접습니다 . 기록을 위해 필자 는 Aki Vehtari 의 MATLAB 구현 PSIS-LOO를 사용하고 있습니다.
어쩌면이 방법을 적용하는 현재의 첫 번째 문제가 PSIS-LOO에서 "어려워"라는 점에서 매우 운이 좋지 않을 수도 있지만,이 경우는 비교적 일반적 일 수 있습니다. 광산, Vehtary, Gelman & Gabry 논문과 같은 경우에는 단순히
PSIS 추정값에 유한 분산이 있더라도 이면 문제 대해 에서 직접 샘플링을 고려해야 합니다. fold cross- 검증 또는보다 강력한 모델을 사용하십시오.
이 방법은 시간이 많이 걸리거나 추가 조정이 필요하기 때문에 명백하지만 실제로 이상적인 솔루션은 아닙니다 (MCMC 및 모델 평가는 모두 조정에 대한 것이지만 그보다는 덜 나을 것입니다).
PSIS-LOO가 실패하지 않도록 사전에 적용 할 수있는 일반적인 방법이 있습니까? 나는 잠정적 인 아이디어가 있지만 사람들이 이미 채택한 경험적 해결책이 있는지 궁금합니다.