베이지안 올가미 및 스파이크 및 슬래브


14

질문 : 변수 선택을 위해 하나를 사용하는 것의 장점 / 단점은 무엇입니까?

I는 가능성이 있다고 가정 I를 넣을 수 어느 사도 중 하나 : 또는

yN(Xw,σ2I)
wiπδ0+(1π)N(0,100)π=0.9,
wiexp(λ|wi|)λΓ(1,1).

나는 '정규화'매개 변수를 선택 하기 위해 대부분의 가중치가 0이고 이전의 감마를 강조하기 위해 를 넣었습니다 .π=0.9λ

그러나 교수님은 올가미 버전이 계수를 '축소'하고 실제로 적절한 변수 선택을 수행하지 않는다고 주장합니다. 즉 관련 매개 변수의 초과 축소도 있습니다.

변형 베이를 사용하기 때문에 개인적으로 Lasso 버전을 쉽게 구현할 수 있습니다. 실제로 을 효과적으로 적용한 Sparse Bayesian Learning 논문 은 더 희소 한 솔루션을 제공합니다.1|wi|


4
교수님은 관련 매개 변수가 축소되고있는 것이 맞지만 어떻게해야합니까? 오류를 줄이는 데 크게 기여하지 않는 정도로만 축소합니다. 그리고 왜 적절한 변수 선택을하고에 초점을 .. 초점 (테스트) 오류 감소에 있어야하지
seanv507을

대부분의 문제에 대해 그렇습니다. 그러나 일부 문제 (예 : 유전자 발현을 통한 암 탐지)의 경우 어떤 요소가 기여 요인인지 찾는 것이 매우 중요합니다. 추신 : 그는 바보 때문에 이후 박사 후 이사에서 이동했습니다. 머신 러닝 ftw !!!
sachinruk

스파이크와 슬래브는 변수 선택의 황금 표준이되고 LASSO와 함께 일하는 것을 선호합니다. @Sachin_ruk : 너무 변분 베이 즈를 사용하여 이전에 구현 될 수있는 스파이크와 슬래브 ...
Sandipan Karmakar

@SandipanKarmakar Variational Bayes와 스파이크 및 슬래브를 참조하는 링크를 게시 할 수 있습니까?
sachinruk

귀하의 질문은 모델링 [이전?]과 구현 [변동 베이 즈] 문제를 병합합니다. 별도로 처리해야합니다.
Xi'an

답변:


3

이 두 가지 방법 (LASSO 및 스파이크 앤 슬래브)은 서로 다른 매개 변수를 지정하는 베이지안 추정 문제로 해석 될 수 있습니다. 주요 차이점 중 하나는 LASSO 방법이 사전에 포인트 질량을 0으로 설정하지 않는다는 것입니다 (즉, 매개 변수는 사전에 거의 0이 아닙니다). 제로에.

내 겸손한 견해로, 스파이크 앤 슬래브 방법주요 장점은 매개 변수 수가 데이터 포인트 수보다 많은 문제에 적합하며 많은 수의 매개 변수 를 완전히 제거하려는 경우입니다. 모델에서. 이 방법은 이전에 큰 점 질량을 0으로 설정하기 때문에, 소량의 매개 변수 만 포함하는 경향이있는 사후 추정치를 산출하여 데이터의 과적 합을 피할 수 있기를 바랍니다.

교수가 전자가 변수 선택 방법을 수행하고 있지 않다고 말할 때, 아마도 이것이 의미하는 바입니다. LASSO 하에서, 각 매개 변수는 거의 확실하게 우선 순위가 0이 아닙니다 (즉, 모두 모델에 있습니다). 가능성은 또한 매개 변수 지원에 비해 0이 아니기 때문에 각각이 거의 선험적으로 0이 아닌 것을 의미합니다 (즉, 모두 모델에 있음). 이제 가설 검정과 함께 모델에서 규칙 매개 변수를 보충하여이를 보충 할 수 있지만, 이는 베이지안 모형 위에 부과 된 추가 검정입니다.

베이지안 추정 결과는 데이터의 기여와 이전의 기여를 반영합니다. 당연히, (스파이크 및 슬래브와 같이) 제로 주위에 더 밀접하게 집중된 이전 분포는 (LASSO와 같이) 덜 집중된 이전에 비해 결과 파라미터 추정기를 실제로 "축소"할 것이다. 물론이 "축소"는 사용자가 지정한 이전 정보의 영향 일뿐입니다. LASSO 우선의 형태는 이전보다 평평한 것에 비해 모든 매개 변수 추정값이 평균을 향해 축소되고 있음을 의미합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.