glmnet이 Zou & Hastie 원본 용지의“순진한”탄성 그물을 사용하는 이유는 무엇입니까?


27

Zou & Hastie (2005) 최초의 탄성 그물 종이 탄성 그물을 통한 정규화 및 변수 선택 은 선형 회귀에 대한 탄성 그물 손실 함수를 도입했습니다 (여기서 모든 변수가 단위 분산에 중심을두고 스케일링되었다고 가정) : 이지만 "순진 탄력적 그물"이라고합니다. 그들은 이중 수축 (라소와 릿지)을 수행하고, 과도하게 수축하는 경향이 있으며, 다음과 같이 결과 솔루션의 크기를 재조정함으로써 개선 될 수 있다고 주장했습니다 : \ hat \ beta ^ * = (1+ \ lambda_2) \ hat \ beta. 그들은 더 나은 성능으로 이어진다는 이론적 주장과 실험적 증거를 제시했습니다.

L=1nyXβ2+λ1β1+λ2β22,
β^=(1+λ2)β^.

그러나 후속 glmnet논문 인 Friedman, Hastie, & Tibshirani (2010)좌표 하강을 통한 일반화 된 선형 모델의 정규화 경로는 이 크기 조정을 사용하지 않았으며 간단한 각주 만 언급했습니다.

Zou and Hastie (2005)는이 형벌을 탄력 그물이라고했으며, 탄성 그물이라고하는 크기 조정 된 버전을 선호했다. 우리는이 차이점을 여기에 떨어 뜨립니다.

더 이상의 설명은 없습니다 (또는 Hastie et al. 교과서). 나는 다소 수수께끼를 느낀다. 저자들은 너무 임시적인 것으로 간주하여 재조정을 중단 했습니까 ? 추가 실험에서 더 나빴 기 때문에? GLM 사례에 일반화하는 방법이 명확하지 않기 때문에? 나도 몰라 그러나 어쨌든 glmnet패키지는 그 이후로 매우 인기를 얻었으므로 요즘 아무도 아무도 Zou & Hastie의 크기 조정을 사용하지 않으며 대부분의 사람들은 아마도이 가능성에 대해 알지 못합니다.

질문 : 결국,이 크기 조정이 좋은 생각인지 나쁜 생각입니까?

glmnet매개 변수화를 사용하면 Zou & Hastie 크기 조정은 \ hat \ beta ^ * = \ big (1+ \ lambda (1- \ alpha) \ big) \ hat \ beta 여야합니다

β^=(1+λ(1α))β^.

1
glment paper에서 목표는 전체 정규화 경로에 맞추는 것입니다. 아마도 크기 조정은 경로의 단조로운 변형 일 것입니다.
Matthew Drury 22

1
@MatthewDrury 사실이지만 Friedman et al. 리 스케일링은 좋은 생각이라고 믿었고, 종이나 glmnet코드 에서 벗어나지 않을 것입니다 . 선택적 기능으로도 사용할 수 없습니다 (2005 년 논문과 함께 제공된 이전 코드는 물론 크기 조정을 지원합니다).
amoeba는

4
불행히도, 공개 glmnet 코드는 완전히 읽을 수 없습니다 ...
Matthew Drury

답변:


25

이 질문을 Zou와 Hastie에게 이메일로 보냈고 Hastie로부터 다음과 같은 답변을 받았습니다 (여기서 인용하지 않아도되기를 바랍니다).

Zou 등은 추가적인 편향에 대해 걱정했지만 물론 크기를 조정하면 분산이 증가합니다. 바이어스 편차 트레이드 오프 곡선을 따라 하나만 이동합니다. 우리는 곧 더 나은 크기 조정의 형태 인 편안한 올가미 버전을 포함시킬 것입니다.

나는이 단어들을 바닐라 탄성 망 솔루션 의 어떤 "리 스케일링"형태의 보증으로 해석 하지만, Hastie는 더 이상 Zou & Hastie 2005에 제시된 특정 접근법을지지하지 않는 것으로 보인다.


다음에서는 몇 가지 크기 조정 옵션을 간단히 검토하고 비교합니다.

I가 사용된다 glmnet손실의 매개 변수화 솔루션은 로 표시됩니다 .

L=12nyβ0Xβ2+λ(αβ1+(1α)β22/2),
β^
  1. Zou & Hastie의 접근 방식은이것은 때 순수하게 릿지에 대해 약간의 재조정이 가능하다는 것을 명심하십시오 . 다른 한편으로, 올가미 추정기가 약간의 재조정으로부터 이익을 얻을 수 있다는 문헌의 다양한 주장에도 불구하고, 일 때 순수한 올가미에 대한 재조정은 발생하지 않습니다 (아래 참조).

    β^rescaled=(1+λ(1α))β^.
    α=0α=1
  2. 순수한 올가미의 경우, Tibshirani는 올가미 -OLS 하이브리드, 즉 올가미에 의해 선택된 예측 자 서브 세트를 사용하여 OLS 추정기를 사용하는 것이 좋습니다. 이렇게하면 추정기가 일관되게됩니다 (그러나 축소를 취소하여 예상 오차를 증가시킬 수 있음). 탄력적 그물 대해 동일한 접근 방식을 사용할 수 있지만 잠재적 문제는 탄력적 그물이 선택할 수 있다는 것입니다 개 이상의 예측 변수와 OLS가 손상됩니다 (반면에 순수 올가미는 개 이상의 예측 변수를 선택하지 않습니다 ).

    β^elastic-OLS-hybrid=OLS(Xiβ^i0)
    nn
  3. 위에서 인용 한 Hastie의 이메일에 언급 된 편안한 올가미 는 첫 번째 올가미에서 선택한 예측 변수의 하위 집합에 대해 또 다른 올가미를 실행하는 제안입니다. 아이디어는 두 가지 다른 처벌을 사용하고 교차 검증을 통해 둘 다 선택 하는 것 입니다. 하나는 동일한 아이디어를 탄력적 그물에 적용 할 수 있지만, 이것은 가지 정규화 매개 변수 를 필요로하는 것으로 보이며 이를 조정하는 것은 악몽입니다.

    I는 간단한 제안 완화 탄성 그물 구조를 구하고 후 와 릿지 회귀를 수행 과 동일한 : 예측기의 선택된 서브 세트에이 (a)에는 추가 정규화 매개 변수가 필요하지 않으며 (b) 선택한 여러 예측 변수에 대해 작동하며 (c) 순수한 릿지로 시작하면 아무 것도 수행하지 않습니다. 나에게 좋은 소리.β^α=0λ

    β^relaxed-elastic-net=Ridge(Xiβ^i0).

현재 및 인 작은 데이터 세트로 작업하고 있습니다. 여기서 는 의 몇 가지 주요 PC에 의해 잘 예측됩니다 . 100x 반복 11 배 교차 검증을 사용하여 위 추정량의 성능을 비교해 보겠습니다. 성능 메트릭으로 테스트 오류를 ​​사용하고 R- 제곱과 같은 결과를 얻기 위해 정규화되었습니다.아래 그림에서 점선은 바닐라 탄성 망 추정기 해당하고 세 개의 하위 플롯은 세 가지 재조정 방법에 해당합니다.npn=44p=3000yX

Rtest2=1ytestβ^0Xtestβ^2ytestβ^02.
β^

여기에 이미지 설명을 입력하십시오

따라서 적어도이 데이터에서 세 가지 접근 방식은 모두 바닐라 탄성 망 추정기를 능가하며 "이완 된 탄성 망"이 가장 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.