능선 회귀에서 회귀 계수 를 찾는 방법은 무엇입니까?


14

릿지 회귀 분석에서 최소화 할 목적 함수는

RSS+λβj2.

Lagrange multiplier 방법을 사용하여이를 최적화 할 수 있습니까? 아니면 그것이 바로 차별화인가?


1
제목 ( 중점을 둔 )과 질문 ( 에 관한 것으로 보이는 것) 사이에는 어떤 관련이 있습니까? 변수가 고려 될 수있는 변수와 수정 될 변수에 따라 "최적화"가 다르게 해석 될 수 있다고 우려합니다. β jλβj
whuber

1
고마워 질문을 수정했습니다. 나는 읽었습니다 당신이 것을 의미하지만, 내가 믿는 - 교차 검증에 의해 발견 이미를 최고의 찾기 위해 다른 데이터를 사용하는 질문입니다 - 당신은 어떻게 찾을 수 있습니까 's를의 를 알 수없는 첫 번째 장소 는? β j λ β j λλβjλβjλ
미나 즈

답변:


22

융기 문제에 대한 두 가지 공식이 있습니다. 첫 번째는

βR=argminβ(yXβ)(yXβ)

에 따라

jβj2s.

이 공식은 회귀 계수에 대한 크기 제약을 보여줍니다. 이 제약 조건의 의미에 유의하십시오. 우리는 계수가 반지름 원점 주위에 공을 놓도록 강요하고 있습니다.s

두 번째 공식은 정확히 당신의 문제입니다

βR=argminβ(yXβ)(yXβ)+λβj2

이는 라그랑주 승수 제제로 볼 수있다. 여기서 는 튜닝 매개 변수이며 값이 클수록 수축이 커집니다. 와 관련하여 표현을 차별화 하고 잘 알려진 능선 추정기를 얻을 수 있습니다.λβ

(1)βR=(XX+λI)1Xy

두 공식은 와 사이에 일대일 대응이 있기 때문에 완전히 동일 합니다.sλ

그것에 대해 좀 더 자세히 설명하겠습니다. 이상적인 직교 사례 인 있다고 상상해보십시오 . 이것은 매우 단순화되고 비현실적인 상황이지만 견적자를 조금 더 자세히 조사 할 수 있습니다. 식 (1)에 어떤 일이 발생하는지 고려하십시오. 능선 추정기는XX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

직교 경우와 마찬가지로 OLS 추정기는 됩니다. 이 구성 요소를 살펴보면 이제βOLS=Xy

(2)βR=βOLS1+λ

그러면 수축이 모든 계수에 대해 일정하다는 것을 알 수 있습니다. 이것은 일반적인 경우에는 적용되지 않을 수 있으며 실제로 매트릭스에 이있는 경우 수축이 크게 다름을 알 수 있습니다 .XX

그러나 제한된 최적화 문제로 돌아가 봅시다. KKT 이론으로 하는 필요한 최적위한 조건은

λ(βR,j2s)=0

따라서 또는 (이 경우 제약 조건은 바인딩이라고 함). 경우 다음 수수료가없는 그리고 우리는 정규 OLS 상황에 있습니다. 구속 조건이 구속력이 있고 우리가 두 번째 상황에 있다고 가정하자. (2)의 공식을 사용하여λ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

우리가 얻을 때

λ=βOLS,j2s1

이전에 주장한 일대일 관계. 나는 이것이 직교가 아닌 경우에 확립하기가 더 어려울 것으로 기대하지만 결과는 상관없이 나옵니다.

(2)를 다시 살펴보면 여전히 누락 있습니다. 최적의 값을 얻으려면 교차 유효성 검사를 사용하거나 능선 추적을 볼 수 있습니다. 후자의 방법은 (0,1)에서 시퀀스를 구성 하고 추정치가 어떻게 변하는지를 찾는 것입니다. 그런 다음 안정화 하는 를 선택하십시오 . 이 방법은 아래의 두 번째 참조에서 제안되었으며 가장 오래된 방법입니다.λλλ

참고 문헌

Hoerl, Arthur E. 및 Robert W. Kennard. "릿지 회귀 : 비 직교 문제에 대한 편향 추정." 기술 통계 12.1 (1970) : 55-67.

Hoerl, Arthur E. 및 Robert W. Kennard. "릿지 회귀 : 비 직교 문제에 대한 응용 프로그램" 기술 통계 12.1 (1970) : 69-82.


2
@Minaj Ridge 회귀 분석은 모든 계수 (절편 제외)에 대해 일정한 수축이 있습니다. 이것이 승수가 하나 뿐인 이유입니다.
JohnK

2
@amoeba 이것은 1970 년대에 능선 회귀를 도입 한 사람들 Hoerl과 Kennard의 제안입니다. 그들의 경험과 광산을 기반으로 계수는 극도의 다중 공선 성으로도 그 간격으로 안정화됩니다. 물론 이것은 경험적인 전략이므로 항상 작동한다고 보장 할 수는 없습니다.
JohnK

2
또한 의사 관측 방법을 사용하여 최소 제곱 회귀 프로그램보다 더 복잡한 것은 없습니다. 비슷한 방식으로 변경의 영향을 조사 할 수도 있습니다 . λ
Glen_b-복지 주 모니카

2
@amoeba 능선의 크기가 변하지 않는 것이 사실이므로 미리 데이터를 표준화하는 것이 일반적입니다. 당신이보고 싶은 경우에 관련 참조를 포함 시켰습니다. 그들은 매우 흥미롭고 기술적이지 않습니다.
JohnK

2
릿지 회귀 분석에서 @JohnK는 각 를 다른 양만큼 축소하므로 축소 매개 변수 가 하나만 있어도 축소는 일정하지 않습니다 . βλ
Frank Harrell

4

필자의 저서 Regression Modeling Strategies 는 를 선택하기위한 효과적인 AIC 사용에 대해 설명 합니다. 이것은 벌점 된 로그 가능성과 유효 자유도에서 비롯되며, 후자는 벌점에 의해 편차가 얼마나 많은지에 대한 함수입니다 . 이에 대한 프리젠 테이션은 여기에 있습니다 . R 패키지 는 효과적인 AIC를 최적화하는 를 찾아서 여러 페널티 파라미터 (예 : 선형 메인 효과, 비선형 메인 효과, 선형 상호 작용 효과 및 비선형 상호 작용 효과)를 허용합니다.λβ^rmspentraceλ


1
+1. 를 선택하기 위해 명시 적 수식을 통해 계산 된 (즉, 실제로 CV를 수행하지 않고) Leave-One-Out CV 오류를 사용하는 것에 대해 어떻게 생각 하십니까? 실제로 "효과적인 AIC"와 비교하는 방법에 대한 아이디어가 있습니까? λ
amoeba 말한다 Reinstate Monica

나는 그것을 공부하지 않았습니다. LOOCV는 많은 계산이 필요합니다.
Frank Harrell

명시 적 수식을 사용하지 않을 경우 : stats.stackexchange.com/questions/32542를 .
amoeba는 Reinstate Monica

1
이 공식은 일반적인 최대 가능성이 아니라 OLS의 특수한 경우에 적용됩니다. 그러나 점수 잔차를 사용하는 근사 공식이 있습니다. 이 토론에서 주로 OLS에 대해 이야기하고 있음을 알고 있습니다.
Frank Harrell

1

나는 그것을 분석적으로하지 않고 오히려 수치 적으로합니다. 나는 보통 RMSE와 λ를 다음과 같이 플롯합니다.

여기에 이미지 설명을 입력하십시오

그림 1. RMSE 및 상수 λ 또는 알파


이것은 의 특정 값을 수정 한 다음 표현식을 차별화하여 를 찾은 다음 RMSE를 계산하고 새로운 값에 대해 프로세스를 다시 수행한다는 의미 입니까? β jλβjλ
미나 즈
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.