LASSO의 자유도에 대한 직감


12

Zou et al. "올가미의"자유도 " (2007)에 따르면, 0이 아닌 계수의 수는 올가미의 자유도에 대한 편견이없고 일관된 추정치 인 것으로 나타났습니다.

나에게는 약간의 직관이 아닌 것 같습니다.

  • 회귀 모형이 있다고 가정합니다 (변수가 0 평균 인 경우).

y=βx+ε.
  • 의 무제한 OLS 추정값 이 라고 가정합니다 . 패널티 강도가 매우 낮은 경우 LASSO 추정치 인 와 대략 일치 할 수 있습니다.ββ^OLS=0.5β
  • 특정 페널티 강도 대한 LASSO 추정값 이 . 예를 들어, 는 교차 유효성 검사를 통해 찾은 데이터 세트에 대한 "최적" 수 있습니다 . λβ^LASSO,λ=0.4λλ
  • 올바르게 이해하면 두 경우 모두 0이 아닌 회귀 계수가 있으므로 자유도는 1입니다.

질문:

  • 가 보다 피팅에있어 "자유"가 적 하더라도 두 경우 모두 자유도가 어떻게됩니까?β^LASSO,λ=0.4β^OLS=0.5

참고 문헌 :


1
더 큰 관심을 가질만한 좋은 질문입니다!
Matifou

답변:


8

우리는 한 세트의 주어진 것으로 가정 차원 관찰, , . 형식의 모델을 가정합니다. 여기서 , 내부 제품을 나타내는 및하자 추정치 일 피팅 방법에 사용 (로모 목적 OLS 올가미 어느 참조). 이 기사 (식 1.2)에서 주어진 자유도에 대한 공식은 다음과 같습니다. n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

이 공식을 검사함으로써 직감에 따라 LASSO 의 실제 DOF가 실제로 OLS 의 실제 DOF 보다 작을 것으로 예상 할 수 있습니다 . LASSO에 의해 영향을받는 계수 축소는 공분산을 감소시키는 경향이 있습니다.

이제 귀하의 질문에 대답하기 위해 LASSO의 DOF가 예제의 OLS의 DOF와 동일한 이유 는 모델에서 샘플링 된 특정 데이터 세트에서 얻은 추정치 (편향되지 않은 것임)를 다루기 때문입니다. 실제 DOF 값 중 특정 데이터 집합의 경우 이러한 추정치는 실제 값과 같지 않습니다 (특히 추정은 정수 여야하지만 실제 값은 일반적으로 실수이므로).

그러나 이러한 추정치가 모델에서 샘플링 된 많은 데이터 세트에 대해 평균화 될 때, 편견과 많은 수의 법칙에 의해 이러한 평균은 실제 DOF로 수렴됩니다. LASSO의 경우, 이러한 데이터 세트 중 일부는 계수가 실제로 0 인 추정기를 생성합니다 ( 가 작 으면 이러한 데이터 세트는 드물지만 ). OLS의 경우, DOF의 추정은 항상 계수의 수입니다 하지 않은 제로 계수의 수, 이러한 0을 포함하지 않습니다 OLS의 경우에 따라서 평균. 이것은 추정기가 어떻게 다른지, 그리고 LASSO DOF에 대한 평균 추정기가 OLS DOF에 대한 평균 추정기보다 작은 것으로 수렴하는 방법을 보여줍니다.λ


1
내 실수를 수정하고 부정확 한 공식을 작성해 주셔서 감사합니다. 내가 당신을 잘 이해했는지 봅시다. 기본적으로 실험을 여러 번 반복하거나 동일한 모집단에서 여러 번 샘플링하는 경우 때때로 (계수가 얻습니다. (실험 전반에 걸쳐) 나는 LASSO에 대한 DoF 을 얻는 반면 OLS에 대한 DoF (분명히)입니다. β^LASSO=0<1=1
Richard Hardy

그런데 왜 자유도의 추정값이 정수 여야합니까? 정말입니까? 내부 제품 표기법이 불필요하게 복잡해 보이며이 사이트에서는 거의 사용되지 않는다는 점도 언급하겠습니다. 행렬 표기법으로 충분합니다. 물론 그것은 당신의 선택입니다.
Richard Hardy

1
그렇습니다. 자유도의 추정치는 추정치가 0이 아닌 계수의 수이기 때문에 LASSO (적어도 단일 데이터 세트의 경우)의 정수 여야합니다.
e2crawfo

1
성명서 자유도의 추정치는 LASSO에 대한 정수 여야합니다. 추정치가 0이 아닌 계수의 수이기 때문에 나에게 매우 팽팽한 것으로 보입니다. 일반적으로, 작성한 df의 정의에서 df가 정수일 필요는 없다고 생각합니다. 마찬가지로, 능선의 경우에는 반드시 0이 아닙니다.
Matifou
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.