답변:
짧은 대답 : 다음 상황 중 하나에 직면 할 때마다 :
릿지 회귀는 일반적으로 바이어스와 분산 사이의 더 나은 절충을 통해 OLS 솔루션보다 더 나은 예측을 제공합니다. 가장 큰 단점은 모든 예측 변수가 모형에 유지된다는 점입니다. 따라서 교묘 한 모형을 찾거나 특정 기능 선택을 적용하려는 경우 그리 흥미롭지 않습니다.
희소성을 달성하기 위해 올가미가 더 적합하지만 높은 공선 성이 존재하는 경우 반드시 좋은 결과를 얻을 수있는 것은 아닙니다 (예측자가 높은 상관 관계를 갖는 경우 올가미의 예측 성능은 능선 회귀에 의해 좌우 됨). L1 페널티의 두 번째 문제점은 변수의 수가 피험자의 수보다 클 때 올가미 해가 유일하게 결정되지 않는다는 것입니다 (이는 능선 회귀의 경우가 아닙니다). 올가미의 마지막 단점은 쌍별 상관 관계가 높은 예측 변수 그룹 중 하나의 변수 만 선택하는 경향이 있다는 것입니다. 이 경우 그룹 과 같은 대체 솔루션이 있습니다 (즉, 공변량 블록에서 수축, 즉 일부 회귀 계수 블록은 정확히 0 임) 또는 융합올가미. 그래픽 올가미는 또한 GGMs 유망 기능 (은 R 볼 수 있습니다 glasso의 패키지).
여기서 및.
올가미는 Friedman and coll., Coordinate Descent (JSS, 2010) 를 통한 일반화 된 선형 모델의 정규화 경로 또는 LARS 알고리즘에 의해 설명 된 바와 같이 좌표 하강에 기반한 알고리즘으로 계산 될 수 있습니다 . R에서 형벌 , lars 또는 biglars 및 glmnet 패키지는 유용한 패키지입니다. 파이썬에는 scikit.learn 툴킷이 있으며, 세 종류의 정규화 체계를 적용하는 데 사용되는 알고리즘에 대한 광범위한 문서 가 있습니다.
일반적인 참고 자료로 올가미 페이지 에는 올가미 회귀를 시작하는 데 필요한 대부분의 내용과 L1- 벌금에 대한 기술적 세부 정보가 포함되어 있으며이 관련 질문에는 필수 참조 기능이 있습니다 .
능선 회귀의 사용에 대한 이론적 근거는 그 솔루션이 계수에 대한 사전 우선 순위가 주어지면 사후 평균이라는 것입니다. 즉, 제곱 오차에 관심이 있고 정상적인 이전 수치를 믿는 경우 능선 추정값이 최적입니다.
유사하게, 올가미 추정값은 계수에 앞서 이중 지수 하에서 사후 모드입니다. 이는 일대일 손실 기능에서 최적입니다.
실제로 이러한 기술은 일반적으로 많은 데이터가 아닌 상관 된 변수가 많은 상황에서 예측 정확도를 향상시킵니다. OLS 추정기는 최상의 선형 편향이지만 이러한 상황에서는 편차가 큽니다. 바이어스-분산 트레이드 오프를 살펴보면, 편차의 작은 증가는 분산의 큰 감소에 의해 상쇄되기 때문에 예측 정확도가 향상됩니다.