회귀 분석에 정규화 방법을 사용해야하는 경우


83

어떤 상황에서 OLS 대신 정규화 방법 (리지, 올가미 또는 최소 각도 회귀)을 사용해야합니까?

이것이 토론을 이끌어내는 데 도움이되는 경우 나의 주요 관심사는 예측 정확도를 향상시키는 것입니다.

답변:


75

짧은 대답 : 다음 상황 중 하나에 직면 할 때마다 :

  • 많은 변수 또는 낮은 비율 아니 관찰. 변수 ( np 경우 포함),
  • 높은 공선 성
  • 희소 솔루션 (예 : 모델 매개 변수를 추정 할 때 피처 선택 포함)을 찾거나
  • 고차원 데이터 세트에서 변수 그룹화를 설명합니다.

릿지 회귀는 일반적으로 바이어스와 분산 사이의 더 나은 절충을 통해 OLS 솔루션보다 더 나은 예측을 제공합니다. 가장 큰 단점은 모든 예측 변수가 모형에 유지된다는 점입니다. 따라서 교묘 한 모형을 찾거나 특정 기능 선택을 적용하려는 경우 그리 흥미롭지 않습니다.

희소성을 달성하기 위해 올가미가 더 적합하지만 높은 공선 성이 존재하는 경우 반드시 좋은 결과를 얻을 수있는 것은 아닙니다 (예측자가 높은 상관 관계를 갖는 경우 올가미의 예측 성능은 능선 회귀에 의해 좌우 됨). L1 페널티의 두 번째 문제점은 변수의 수가 피험자의 수보다 클 때 올가미 해가 유일하게 결정되지 않는다는 것입니다 (이는 능선 회귀의 경우가 아닙니다). 올가미의 마지막 단점은 쌍별 상관 관계가 높은 예측 변수 그룹 중 하나의 변수 만 선택하는 경향이 있다는 것입니다. 이 경우 그룹 과 같은 대체 솔루션이 있습니다 (즉, 공변량 블록에서 수축, 즉 일부 회귀 계수 블록은 정확히 0 임) 또는 융합올가미. 그래픽 올가미는 또한 GGMs 유망 기능 (은 R 볼 수 있습니다 glasso의 패키지).

m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

여기서 및.β2=j=1pβj2β1=j=1p|βj|

올가미는 Friedman and coll., Coordinate Descent (JSS, 2010) 를 통한 일반화 된 선형 모델의 정규화 경로 또는 LARS 알고리즘에 의해 설명 된 바와 같이 좌표 하강에 기반한 알고리즘으로 계산 될 수 있습니다 . R에서 형벌 , lars 또는 biglarsglmnet 패키지는 유용한 패키지입니다. 파이썬에는 scikit.learn 툴킷이 있으며, 세 종류의 정규화 체계를 적용하는 데 사용되는 알고리즘에 대한 광범위한 문서 가 있습니다.

일반적인 참고 자료로 올가미 페이지 에는 올가미 회귀를 시작하는 데 필요한 대부분의 내용과 L1- 벌금에 대한 기술적 세부 정보가 포함되어 있으며이 관련 질문에는 필수 참조 기능이 있습니다 .


1
상대적으로 변수가 적지 만 신호 대 잡음비가 매우 낮은 관측치가 많은 경우 어떻게합니까? 실제로 너무 많이 끼우는 것은 매우 심각한 문제입니다. 정규화가 예측 정확도를 개선하기 위해 시도하고 살펴 보는 것이 현명한 것일까 요?
NPE

1
@aix 실제로 몇 개의 변수라고 부르는 것과 어떤 종류의 변수를 다루는 지에 달려 있습니다. 그러나 귀하의 경우 능선 접근 방식이 선호된다고 생각합니다. 당신은 또한 볼 수 있습니다 리지 회귀 증폭 (Tutz 및 바인더, 2005). 과잉 피팅을 방지하기위한 기본 제공 방법으로 Penalized ML 추정이 제안되었습니다. 예를 들어 이진 결과 예측을위한 Penalized Maximum Likelihood Estimation : Moons KG, Donders AR, Steyerberg EW, Harrell FE를 참조하십시오. J. 클린 에피 데미 올. 2004, 57 (12) : 1262–70.
chl

20

능선 회귀의 사용에 대한 이론적 근거는 그 솔루션이 계수에 대한 사전 우선 순위가 주어지면 사후 평균이라는 것입니다. 즉, 제곱 오차에 관심이 있고 정상적인 이전 수치를 믿는 경우 능선 추정값이 최적입니다.

유사하게, 올가미 추정값은 계수에 앞서 이중 지수 하에서 사후 모드입니다. 이는 일대일 손실 기능에서 최적입니다.

실제로 이러한 기술은 일반적으로 많은 데이터가 아닌 상관 된 변수가 많은 상황에서 예측 정확도를 향상시킵니다. OLS 추정기는 최상의 선형 편향이지만 이러한 상황에서는 편차가 큽니다. 바이어스-분산 트레이드 오프를 살펴보면, 편차의 작은 증가는 분산의 큰 감소에 의해 상쇄되기 때문에 예측 정확도가 향상됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.