LASSO 및 능선과 같은 페널티 회귀 추정기는 특정 이전의 베이지안 추정기에 해당한다고합니다.
네 맞습니다. 로그 우도 함수의 최대화와 매개 변수에 대한 페널티 함수와 관련된 최적화 문제가있을 때마다, 이는 페널티 함수가 이전 커널의 로그로 간주되는 사후 최대치와 수학적으로 동일합니다. † 이를 확인하려면, 우리는 페널티 기능이 있다고 가정 w 튜닝 매개 변수 사용하여 λ를 . 이 경우 목적 함수는 다음과 같이 작성할 수 있습니다.†wλ
Hx(θ|λ)=ℓx(θ)−w(θ|λ)=ln(Lx(θ)⋅exp(−w(θ|λ)))=ln(Lx(θ)π(θ|λ)∫Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,
우리가 사용 전에 여기서 π(θ|λ)∝exp(−w(θ|λ)) . 최적화에서 튜닝 파라미터는 이전 분포에서 고정 하이퍼 파라미터로 취급됩니다. 고정 튜닝 매개 변수를 사용하여 클래식 최적화를 수행하는 경우 고정 하이퍼 파라미터를 사용하여 베이지안 최적화를 수행하는 것과 같습니다. LASSO 및 릿지 회귀 분석의 경우 페널티 함수 및 해당하는 해당 기능은 다음과 같습니다.
LASSO RegressionRidge Regressionπ(θ|λ)π(θ|λ)=∏k=1mLaplace(0,1λ)=∏k=1mλ2⋅exp(−λ|θk|),=∏k=1mNormal(0,12λ)=∏k=1mλ/π−−−√⋅exp(−λθ2k).
전자의 방법은 절대 크기에 따라 회귀 계수에 불이익을줍니다. 이는 이전에 0에 위치한 Laplace를 부과하는 것과 같습니다. 후자의 방법은 회귀 계수를 제곱 크기에 따라 불이익을줍니다. 이는 제로에 위치한 법선 사전을 부과하는 것과 같습니다.
이제 잦은 주의자는 교차 검증을 통해 튜닝 매개 변수를 최적화합니다. 그렇게하는 베이지안이 있습니까, 전혀 사용됩니까?
잦은 방법이 최적화 문제로 가정 될 수있는 한 (가설 테스트 또는 이와 유사한 것을 포함하는 것이 아니라), 동등한 사전을 사용하는 베이지안 유사성이있을 것이다. 잦은 사람들이 튜닝 파라미터 λ 를 알 수없는 것으로 취급하고이를 데이터로부터 추정 할 수있는 것처럼, 베이지안은 유사하게 하이퍼 파라미터 λ 를 알 수없는 것으로 취급 할 수있다. 전체 베이지안 분석에서 이것은 하이퍼 파라미터에 고유의 사전을 부여하고이 이전의 사후 최대 값을 찾는 것과 관련이 있으며, 이는 다음 목적 함수를 최대화하는 것과 유사합니다.
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−h(λ)=ln(Lx(θ)⋅exp(−w(θ|λ))⋅exp(−h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)∫Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.
이 방법은 분석가가 이전에 특정 하이퍼 파라미터를 선택하는 것이 편하지 않은 경우 베이지안 분석에서 실제로 사용되며,이를 알려지지 않은 것으로 취급하고 분포를 제공함으로써 이전의 확산을 더욱 확산 시키려고합니다. (이것은 관심있는 매개 변수 θ 보다 더 확산되는 암시 적 방법입니다 .)
(Comment from statslearner2 below) I'm looking for numerical equivalent MAP estimates. For instance, for a fixed penalty Ridge there is a gaussian prior that will give me the MAP estimate exactly equal the ridge estimate. Now, for k-fold CV ridge, what is the hyper-prior that would give me the MAP estimate which is similar to the CV-ridge estimate?
Before proceeding to look at K-fold cross-validation, it is first worth noting that, mathematically, the maximum a posteriori (MAP) method is simply an optimisation of a function of the parameter θ and the data x. If you are willing to allow improper priors then the scope encapsulates any optimisation problem involving a function of these variables. Thus, any frequentist method that can be framed as a single optimisation problem of this kind has a MAP analogy, and any frequentist method that cannot be framed as a single optimisation of this kind does not have a MAP analogy.
In the above form of model, involving a penalty function with a tuning parameter, K-fold cross-validation is commonly used to estimate the tuning parameter λ. For this method you partition the data vector x into K sub-vectors x1,...,xK. For each of sub-vector k=1,...,K you fit the model with the "training" data x−k and then measure the fit of the model with the "testing" data xk. 각 적합치에서 모델 매개 변수에 대한 추정값을 얻습니다. 그러면 테스트 데이터에 대한 예측이 제공됩니다. 그런 다음 실제 테스트 데이터와 비교하여 "손실"을 측정 할 수 있습니다.
EstimatorPredictionsTesting lossθ^(x−k,λ),x^k(x−k,λ),Lk(x^k,xk|x−k,λ).
The loss measures for each of the K "folds" can then be aggregated to get an overall loss measure for the cross-validation:
L(x,λ)=∑kLk(x^k,xk|x−k,λ)
One then estimates the tuning parameter by minimising the overall loss measure:
λ^≡λ^(x)≡arg min λL(x,λ).
We can see that this is an optimisation problem, and so we now have two seperate optimisation problems (i.e., the one described in the sections above for θ, and the one described here for λ). Since the latter optimisation does not involve θ, we can combine these optimisations into a single problem, with some technicalities that I discuss below. To do this, consider the optimisation problem with objective function:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ),
where δ>0 is a weighting value on the tuning-loss. As δ→∞ the weight on optimisation of the tuning-loss becomes infinite and so the optimisation problem yields the estimated tuning parameter from K-fold cross-validation (in the limit). The remaining part of the objective function is the standard objective function conditional on this estimated value of the tuning parameter. Now, unfortunately, taking δ=∞ screws up the optimisation problem, but if we take δ to be a very large (but still finite) value, we can approximate the combination of the two optimisation problems up to arbitrary accuracy.
From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and K-fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ)=ln(L∗x(θ,λ)π(θ,λ)∫L∗x(θ,λ)π(θ,λ)dθ)+const,
where L∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)), with a fixed (and very large) hyper-parameter δ.
† This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.