베이지안 올가미 및 일반 올가미


24

lasso에 대해 다른 구현 소프트웨어를 사용할 수 있습니다 . 다른 포럼에서 베이지안 접근 방식과 잦은 접근 방식에 대해 많이 논의했습니다. 내 질문은 올가미에 매우 구체적 입니다. 베이 시안 올가미와 일반 올가미의 차이점 또는 장점은 무엇입니까 ?

다음은 패키지 구현의 두 가지 예입니다.

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

그래서 언제 하나 또는 다른 방법으로 가야합니까? 아니면 같은가요?

답변:


30

표준 올가미는 L1 정규화 페널티 를 사용하여 회귀의 희소성을 달성합니다. 이것을 Basis Pursuit 라고도 합니다.

베이지안 틀에서, 정규화 기의 선택은 가중치보다 이전의 선택과 유사합니다. 가우시안 사전을 사용하는 경우 최대 MAP (Posteriori) 솔루션은 L2 페널티가 사용 된 것과 같습니다. 직접적으로 동일하지는 않지만, 이전의 라플라스 (제로 주위의 부드러운 가우스와는 달리 0으로 급격히 정점)는 L1 페널티와 동일한 수축 효과를냅니다. 이 문서는 베이지안 올가미를 설명합니다. .

실제로, 매개 변수보다 Laplace를 먼저 배치 할 때 MAP 솔루션은 L1 페널티를 사용한 정규화와 동일해야합니다 (단지 유사하지는 않음). Laplace 이전의 L1 페널티와 동일한 축소 효과가 발생합니다. 그러나 베이지안 추론 절차의 근사치 또는 다른 수치 문제로 인해 솔루션이 실제로 동일하지 않을 수 있습니다.

대부분의 경우 두 방법으로 생성 된 결과는 매우 비슷합니다. 최적화 방법과 근사값의 사용 여부에 따라 표준 올가미가 베이지안 버전보다 계산하는 것이 더 효율적일 것입니다. 베이지안은 필요한 경우 오차 분산을 포함하여 모든 매개 변수에 대한 구간 추정치를 자동으로 생성합니다.


"가우시안 사전이 사용 된 경우 최대 우도 솔루션은 같습니다 ...." 최대 가능성 추정은 매개 변수에 대한 이전 분포를 무시하기 때문에 정규화되지 않은 솔루션으로 이어지지 만 MAP 추정은 사전에 고려되므로 강조 표시된 문구는 "최대 A 포스터 리 오리 (MAP)"로 표시해야합니다.
mefathy

1
매개 변수보다 Laplace를 먼저 배치하면 MAP 솔루션은 L1 패널티를 사용한 정규화와 동일 (단순히 유사하지는 않음)하고 Laplace 사전은 L1 패널티와 동일한 수축 효과를 생성합니다.
mefathy

@mefathy 그렇습니다. 실제로 YMMV이지만, 두 카운트에 모두 맞습니다 (MAP 대신 ML을 썼다는 것을 믿을 수 없습니다 ....). 두 의견을 모두 포함하도록 답변을 업데이트했습니다.
tdc

6

"최소 제곱"은 전체 솔루션이 모든 단일 방정식의 결과에서 발생하는 오차의 제곱의 합을 최소화 함을 의미합니다. 가장 중요한 응용 프로그램은 데이터 피팅입니다. 최소 제곱의 의미에 가장 잘 맞는 것은 제곱 잔차의 합을 최소화합니다. 잔차는 관측 값과 모형에서 제공 한 적합치의 차이입니다. 최소 제곱 문제는 선형 또는 일반 최소 제곱과 비 제곱의 두 가지 범주로 나뉩니다. 잔차가 모든 미지수에서 선형인지 여부에 따라 선형 최소 제곱.

베이지안 선형 회귀 는 베이지안 추론의 맥락 내에서 통계 분석이 수행되는 선형 회귀에 대한 접근법입니다. 회귀 모형에 정규 분포가있는 오차가 있고 특정 형태의 사전 분포가 가정 된 경우 모형 모수의 사후 확률 분포에 대해 명시적인 결과를 사용할 수 있습니다.

일부 맥락에서, 최소 제곱 솔루션의 정규화 된 버전이 바람직 할 수 있습니다. Tikhonov 정규화 (또는 능선 회귀)는 매개 변수 벡터의 L2- 노름 인 가 주어진 값보다 크지 않아야 한다는 제약 조건을 추가 합니다. 베이지안 문맥에서, 이것은 매개 변수 벡터에 앞서 평균 제로 평균 분포를 배치하는 것과 같습니다.β2

최소 제곱의 대체 정규화 된 버전은 Lasso (최소 절대 축소 및 선택 연산자) 이며, 매개 변수 벡터의 L1-norm 인 이 주어진 값보다 크지 않아야 한다는 제약 조건을 사용합니다 . 베이지안 맥락에서, 이것은 매개 변수 벡터에 0 평균 Laplace 사전 분포를 배치하는 것과 같습니다.β1

올가미와 릿지 회귀의 주요 차이점 중 하나는 릿지 회귀에서 페널티가 증가함에 따라 모든 매개 변수가 0이 아닌 상태로 유지되면서 줄어드는 반면, 올가미에서는 페널티가 증가하면 더 많은 매개 변수가 발생한다는 것입니다 0으로 구동됩니다.

이 논문은 정규 올가미와 베이지안 올가미 및 능선 회귀를 비교합니다 ( 그림 1 참조 ).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.