원시, 이중 및 커널 릿지 회귀의 차이점


18

Primal , DualKernel Ridge Regression 의 차이점은 무엇입니까 ? 사람들은 세 가지를 모두 사용하고 있으며 다른 출처에서 사용하는 다른 표기법으로 인해 따르기가 어렵습니다.

누군가이 단어의 차이점을 간단한 단어로 말해 줄 수 있습니까? 또한 각각의 장단점은 무엇이며 복잡성은 무엇입니까?

답변:


39

짧은 대답 : Primal과 Dual의 차이점은 없습니다. 솔루션에 도달하는 방법에 불과합니다. 커널 능선 회귀는 본질적으로 일반적인 능선 회귀와 동일하지만 커널 트릭을 사용하여 비선형으로 이동합니다.

선형 회귀

우선, 일반적인 최소 제곱 선형 회귀는 제곱 오차의 합이 최소가되도록 데이터 점 세트에 직선을 맞추려고합니다.

여기에 이미지 설명을 입력하십시오

우리는 가장 적합한 선을 파라 하고 각 데이터 포인트 대해 . 하자 오류 일 - 예측과 실제 값 사이의 거리. 따라서 우리의 목표는 제곱 오차의 합을 최소화하는 것입니다. 여기서 -각 가 행이고 모든 있는 벡터 인 데이터 행렬 .ww ( x i , y i ) (xi,yi)w T x iy i wTxiyie i = y iw T x iei=yiwTxie 2 i = e 2 = X wy 2e2i=e2=Xwy2 X = [ x 1x 2x n- ]X=x1x2xnXxiY=(Y1,...,Y, N)  y=(y1, ... ,yn)(Y)난을yi

따라서 목표는 이고 해는 ( "정상 방정식"으로 알려짐)입니다.최소 wX w y 2 minwXwy2w =( X T X ) 1 X T yw=(XTX)1XTy

보이지 않는 새로운 데이터 포인트 의 경우 목표 값 를 예측합니다 .X x, Y y^, Y는 = T의 Xy^=wTx

릿지 회귀

선형 회귀 모형에 많은 상관 변수가있는 경우 계수 는 잘못 결정될 수 있고 분산 이 많습니다 . 이 문제에 대한 해결책 중 하나는 무게 를 제한하여 일부 예산 초과하지 않도록하는 것 입니다. 이는 "무게 감쇄"라고도 하는 를 사용하는 것과 동일합니다 . 때로는 올바른 결과가 누락되는 경우 (예 : 약간의 편차를 유발하여) 편차를 줄입니다.ww C CL 2L2

목표는 이제 이고 는 정규화 매개 변수입니다. 수학을 통해 다음과 같은 솔루션을 얻습니다. . 일반적인 선형 회귀와 매우 유사하지만 여기서는 의 각 대각선 요소에 를 추가 합니다.최소 wX wy2 +λw 2minwXwy2+λw2 λ λw = ( X T X + λI ) - 1 X T Yw=(XTX+λI)1XTy λ λX T XXTX

를 로 다시 쓸 수 있습니다 자세한 내용 은 여기 참조). 보이지 않는 새로운 데이터 포인트 의 경우 목표 값 를 예측합니다 입니다. 보자 . 그런 다음 입니다.w ww = X T( X X T + λI ) - 1 Yw=XT(XXT+λI)1yX x, Y y^, Y = X T w = X T X T( X X T + λI ) 1 yy^=xTw=xTXT(XXT+λI)1y α = ( X X T + λI ) - (1) 의 Y α=(XXT+λI)1y, Y = X T X T α = N Σ= 1 α IX T Xy^=xTXTα=i=1nαixTxi

릿지 회귀 이중 형식

목표를 다르게 살펴보고 다음 2 차 프로그램 문제를 정의 할 수 있습니다.

최소 e , w n i = 1 e 2 imine,wi=1ne2i st for 과 .e i = y iw T x iei=yiwTxi i = 1. .n i=1..nw 2Cw2C

그것은 같은 목표이지만 다소 다르게 표현되며 여기서 의 크기에 대한 제약 은 명시 적입니다. 이를 해결하기 위해 Lagrangian 정의합니다 이것은 초기 변수 및 를 포함하는 기본 형식입니다 . 그런 다음 wrt 및 최적화합니다 . 이중 공식화를 얻기 위해 found 와 를 .w wL의 P ( w , E , C ) Lp(w,e;C)w wE eE ew wE ew wL의 P ( w , E , C )Lp(w,e;C)

따라서 . 유도체 WRT 취하여 및 , 우리가 구 및 . 시켜서 , 퍼팅을 와 돌아 가기 우리 얻을 듀얼 라그랑지안L p ( w , e ;C)= e 2 + β T ( yX w e )λ( w 2C ) Lp(w,e;C)=e2+βT(yXwe)λ(w2C)w we ee =12 βe=12βw=12 λ XTβw=12λXTβα=12λβα=12λβeewwLp(w,e;C)Lp(w,e;C)Ld(α,λ;C)=λ2α2+2λαTyλXTαλCLd(α,λ;C)=λ2α2+2λαTyλXTαλC . 우리가 미분 wrt 취 하면 일반적인 Kernel Ridge 회귀와 같은 대답을 얻습니다 . 미분 wrt 를 취할 필요가 없습니다 - 정규화 매개 변수 인 의존하고 정규화 매개 변수도 만듭니다 .ααα=(XXTλI)1yα=(XXTλI)1yλλCCλλ

다음으로, 를 대한 기본 양식 솔루션에 넣고 . 따라서 이중 형식은 일반적인 Ridge Regression과 동일한 솔루션을 제공하며 동일한 솔루션을 얻는 다른 방법 일뿐입니다.ααwww=12λXTβ=XTαw=12λXTβ=XTα

커널 릿지 회귀

커널은 특정 피쳐 공간에서 두 벡터를 방문하지 않고도 내부 벡터를 계산하는 데 사용됩니다. 커널 를 로 볼 수 있지만 이 무엇인지 알 수는 없습니다. 우리는 그것이 존재한다는 것을 알고 있습니다. RBF, Polynonial 등과 같은 많은 커널이 있습니다.kkk(x1,x2)=ϕ(x1)Tϕ(x2)k(x1,x2)=ϕ(x1)Tϕ(x2)ϕ()ϕ()

커널을 사용하여 Ridge Regression을 비선형으로 만들 수 있습니다. 커널 가 있다고 가정 합니다. 하자 각 행에있는 행렬 , 즉k(x1,x2)=ϕ(x1)Tϕ(x2)k(x1,x2)=ϕ(x1)Tϕ(x2)Φ(X)Φ(X)ϕ(xi)ϕ(xi)Φ(X)=[ϕ(x1)ϕ(x2)ϕ(xn)]Φ(X)=ϕ(x1)ϕ(x2)ϕ(xn)

이제 우리는 Ridge Regression에 대한 솔루션을 취하고 모든 를 바꿀 수 있습니다 : 입니다. 보이지 않는 새로운 데이터 포인트 의 경우 목표 값 를 .XXΦ(X)Φ(X)w=Φ(X)T(Φ(X)Φ(X)T+λI)1yw=Φ(X)T(Φ(X)Φ(X)T+λI)1yxxˆyy^ˆy=ϕ(x)TΦ(X)T(Φ(X)Φ(X)T+λI)1yy^=ϕ(x)TΦ(X)T(Φ(X)Φ(X)T+λI)1y

먼저, 를 로 계산 된 행렬 대체 할 수 있습니다 . 그런 다음 는 . 그래서 여기서 우리는 문제의 모든 내적을 커널로 표현했습니다.Φ(X)Φ(X)TΦ(X)Φ(X)TKK(K)ij=k(xi,xj)(K)ij=k(xi,xj)ϕ(x)TΦ(X)Tϕ(x)TΦ(X)Tni=1ϕ(x)Tϕ(xi)=ni=1k(x,xj)i=1nϕ(x)Tϕ(xi)=i=1nk(x,xj)

마지막으로, (이전과 같이)를함으로써α=(K+λI)1yα=(K+λI)1yˆy=ni=1αik(x,xj)y^=i=1nαik(x,xj)

참고 문헌


1
잘 조직 된 토론에 깊은 인상을 받았습니다. 그러나 "outliers"에 대한 당신의 초기 언급은 저를 혼란스럽게했습니다. 이 가중치를 표시 에 적용되는 변수 가 아닌 경우, 정확히 어떻게 능선 회귀 도움이 외곽의 해결책 강력한 만들 것입니다 경우 그림에 의해 제안? w
whuber

훌륭한 대답, Alexey (단순한 단어라고 부르지는 않지만)! 질문없이 +1 당신은 LaTeX로 쓰고 싶습니까?
Aleksandr Blekh

2
나는 당신이 여기에 몇 가지 기본 사항을 혼란스럽게 생각합니다. 능선 회귀는 "잡음 관찰"에 대한 대응이나 대처 방법이 아닙니다. OLS는 이미 그렇게합니다. 릿지 회귀는 회귀 분석기 간의 거의 공선 성을 처리하는 데 사용되는 도구입니다. 이러한 현상은 종속 변수의 노이즈와 완전히 다릅니다.
whuber

1
우버 +1 Alexey 당신은 맞습니다. 사용 가능한 데이터에 대해 너무 많은 매개 변수-실제로 소음이 아닙니다. [고정 된 샘플 크기에 충분한 치수를 추가하면 '모든'데이터 세트가 동일 선상에 표시됩니다]. 따라서 RR에 대한 더 나은 2 차원 그림은 (1,0)에 단일 점이있는 [0,1) 주위에 모인 모든 점입니다 [경사 매개 변수를 '정의'합니다]. ESL 그림 3.9, 67 페이지 web.stanford.edu/~hastie/local.ftp/Springer/OLD/…를 참조하십시오 . 또한 초기 비용 함수를 살펴보십시오. 무게를 1 단위 늘리려면 오류가 단위 감소해야합니다1/λ
seanv507

1
능선 회귀 섹션에서 빼기 (?)가 아닌 의 대각선 요소에 를 추가해야한다고 생각합니다 . 편집 내용을 적용했습니다. λXTX
Heteroskedastic Jim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.