베이지안 모델 선택 및 신뢰할 수있는 간격


10

모든 변수가 정량적 인 3 개의 변수가있는 데이터 세트가 있습니다. 그것을 , 및 라고합시다 . MCMC를 통해 베이지안 관점에서 회귀 모델을yx1x2rjags

탐색 적 분석을 수행했으며 의 산점도 는 2 차 항을 사용해야한다고 제안합니다. 그런 다음 두 가지 모델을 장착했습니다y×x2

(1)y=β0+β1x1+β2x2

(2)y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

모델 1에서 각 매개 변수의 효과 크기는 작지 않으며 95 % 신뢰할 수있는 간격은 0 값을 포함하지 않습니다 0.

모델 2에서 매개 변수 β3\ beta_4 의 효과 크기 β4는 작고 모든 매개 변수에 대한 각 신뢰할 수있는 간격에는 0이 포함 0됩니다.

신뢰할 수있는 간격에 0 이 포함되어 있다는 사실 만으로도 매개 변수가 중요하지 않다고 말할 수 있습니까?

그런 다음 다음 모델을 조정했습니다.

(3) y=β0+β1x1+β2x2+β3x22

각 매개 변수의 효과 크기는 작지 않지만 \ beta_1 을 제외하고 β1모든 신뢰할 수있는 간격에는 0이 포함 0됩니다.

베이지안 통계에서 변수 선택을 수행하는 올바른 방법은 무엇입니까?

편집 : 베타 모델과 같은 회귀 모델에서 올가미를 사용할 수 있습니까? 여기서 는 벡터 인 가변 분산 모델을 사용하고 있습니다 . 이전에 Laplace도 사용해야 합니까?

log(σ)=δδX
δδδδ

EDIT2 : 대한 Gaussian priori , 및 Laplace (double-exponential) 모델이 있습니다.βjδj

가우스 모형의 추정치는 다음과 같습니다.

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

올가미 모델의 추정치는 다음과 같습니다.

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

올가미 모델에서는 및 대한 추정치 가 많이 줄었습니다. 모델에서이 변수를 제거해야합니까?δ2δ4

EDIT3 : Double Exponential Prior (Lasso) 모델은 Gaussian priors 모델보다 Deviance, BIC 및 DIC 값이 더 Gaussian 모델에서 분산 계수 를 제거한 후 더 작은 값을 얻습니다 .δ2


2
DBDA2E *의 섹션 18.4는 다중 회귀에서의 변수 선택에 관한 것입니다. 각 계수와 함께 포함 표시기를 넣고 조심스럽게 포함 가능성을 살펴볼 수 있습니다. 모수의 사후 분포를 해석 할 때 0을 포함한 95 % HDI는 0과 동등 함을 나타내지 않습니다. * DBDA2E = 베이지안 데이터 분석 2 판 작성.
존 K. Kruschke

2
베이지안 프레임 워크에서 모델을 비교하는 자연스러운 방법은 신뢰할 수있는 간격이 아닌 한계 가능성을 통하는 것입니다. 모델 평균화와 연결된 대안혼합 표현 을 사용 하고 데이터가 선호하는 모델 / 구성 요소의 가중치를 추론하는 것입니다.
Xi'an

@ Xi'an이지만 모든 모델에 동일한 사전 확률이 주어진 경우 한계 가능성을 통해 둘 이상의 모델을 비교하는 것이 Bayes 요인을 사용하는 것과 같지 않습니까?
DeltaIV

Kruschke 교수님, 믿을 수있는 구간 계산에 대해 의구심이 있습니다. 내가 이해 한 바는 다른 선행에 근거한 후부의 타당성에 따라 많은 신뢰할 수있는 간격이있을 수 있다는 것입니다. 그러나 여기에서 가장 타당한 사전을 결정하는 방법은 무엇입니까? 또 다른 질문은, 후방을 계산하기 위해 Variational Inference (VI)를 사용하고 결국 모델 증거의 하한을 계산한다는 것입니다. VI의 경우 후부의 신뢰할만한 간격을 계산하는 방법은 무엇입니까? 또한 VI의 경우 Bayes Factor를 진행하는 방법은 무엇입니까?
Sandipan Karmakar

답변:


9

중요한 것 (또는 신뢰할 수있는 간격이 0 등을 포함하는지 여부에 관계없이 AIC와 같은 다른 기준)을 기반으로 모델을 작성하는 것은 특히 문제가 있습니다. 베이지안 분석을 수행해도 변경되지 않습니다 ( https://stats.stackexchange.com/a/201931/86652 참조 ). 즉, 변수 선택을 수행하지 말고 모델 평균화 (또는 0의 계수를 얻을 수 있지만 LASSO 또는 탄력적 그물과 같은 전체 모델링 프로세스를 반영하는 것)를 수행해야합니다.

베이지안 모델 선택은보다 일반적으로 베이지안 모델 평균으로 구성됩니다. 각각 다른 확률로 다른 모델이 있습니다. 모형의 사후 모형 확률이 충분히 낮아지면 본질적으로 모형을 완전히 버립니다. 각 모델에 대해 동일한 사전 가중치와 평평한 사전 가중치의 경우, 각 모델의 에 비례하는 가중치를 사용하여 모델 평균을 계산하면 대략적인 값이됩니다.exp(BIC/2)

대안으로 점 질량 (점 질량의 무게는 효과가 정확히 0 일 때의 사전 확률 일 것입니다 = 효과가 모델에 있지 않음)과 연속 분포 (예 : 점 질량)의 혼합 인 모델 평균을 사전에 표현할 수 있습니다. 스파이크 앤 슬래브 사전). 이전에는 MCMC 샘플링이 매우 어려울 수 있습니다.

Carvalho et al. 말굽 수축이 이전에 스파이크 앤 슬래브에 대한 연속 근사치처럼 작동 함을 제안함으로써 말굽 수축에 동기를 부여합니다. 또한 일부 변수에 미치는 영향의 크기와 존재가 어느 정도 다른 변수에 대한 필요한 증거를 다소 완화하는 계층 적 모델에 문제를 포함시키는 경우입니다 (글로벌 수축 매개 변수를 통해 이것은 거짓 발견과 조금 비슷합니다) 반면에 증거가 충분히 명확하다면 개별 효과가 독자적으로 설 수있게한다. 로부터 가능한 그것의 편리한 구현이 BRMS의 스탠 / 기반으로 R 패키지 rstan는 . 이전에 호스 슈 +와 같은 여러 가지 유사한 사전이 있으며 전체 주제는 지속적인 연구 분야입니다.


베이지안 올가미는 stats.stackexchange.com/questions/28609/… 와 같습니다 . 분산 변수가있는 모델인데 그 매개 변수에 대해서도 이중 지수를 사용해야합니까?

2

베이지안 변수 선택에는 여러 가지 공식적인 방법이 있습니다. 베이지안 변수 선택 방법에 대한 약간 오래된 구식이 제시되어 있습니다 :

베이지안 변수 선택 방법에 대한 검토 : 무엇, 방법 및 대상

다른 방법과 R 패키지의 성능 비교가 포함 된 최신 리뷰는 다음과 같습니다.

일 변량 선형 회귀 분석에서 베이지안 변수 선택 및 모형 평균화를위한 방법 및 도구

이 참조는 변수 선택을 실행하기 위해 응답과 공변량 값 (경우에 따라 하이퍼 파라미터 값)을 연결하기 만하면되는 특정 R 패키지를 가리키는 점에서 특히 유용합니다.

"Bayesian"변수 선택을 수행하는 또 하나의 빠르고 더럽고 권장되지 않는 방법은 BIC 및 R 명령 stepAIC ()을 사용하여 단계적 선택 (앞으로, 뒤로, 둘 다)을 사용하는 것입니다. 빅.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

의 또 다른 빠르고 더러운 테스트 방법은 Savage-Dickey 밀도 비율과 사후 시뮬레이션을 사용하는 것입니다.β4=0

https://arxiv.org/pdf/0910.1452.pdf


질문은 모델 3의 세 가지 매개 변수가 모두 0을 포함하는 신뢰할 수있는 영역을 가지고 있고 가 0 인지 아닌지에 대해 입니다.β4
Michael R. Chernick

@MichaelChernick 그렇다면 OP는 왜 묻는가 "In this case is reasonable say that $\beta_4\neq 0$"? 그리고 "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU

질문의 그 부분을 놓쳤지만 그것이 주요한 문제라고 생각하지 않습니다.
마이클 R. 체 르닉

1
@MichaelChernick 글쎄, OP는 여기에 마지막 단어가 있다고 생각합니다 ...
CTHULHU

1

베이지안 통계의 전체 아이디어는 잦은 접근 방식과 다릅니다. 이런 식으로 의미의 용어를 사용하는 것이 정확하지 않다고 생각합니다. 대한 모델에서 얻은 결과 (분포) 가 신뢰할 만한지 신뢰할 수 있는지 결정하는 것은 독자의 몫 입니다. 항상 배포판 자체에 따라 다릅니다. 얼마나 비뚤어지고 넓고 면적이 0보다 작습니까?β

41:55에서이 주제에 대한 훌륭한 강의를 찾을 수도 있습니다.

https://vimeo.com/14553953


신뢰할 수있는 간격에 이 포함 된 하나의 변수에 대한 히스토그램의 예를 추가했습니다 . 0

1
주말에서 돌아온다. 히스토그램은 어디에서 찾을 수 있습니까?
burton030
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.