답변:
짧은 대답 : Primal과 Dual의 차이점은 없습니다. 솔루션에 도달하는 방법에 불과합니다. 커널 능선 회귀는 본질적으로 일반적인 능선 회귀와 동일하지만 커널 트릭을 사용하여 비선형으로 이동합니다.
우선, 일반적인 최소 제곱 선형 회귀는 제곱 오차의 합이 최소가되도록 데이터 점 세트에 직선을 맞추려고합니다.
우리는 가장 적합한 선을 파라 하고 각 데이터 포인트 대해 . 하자 오류 일 - 예측과 실제 값 사이의 거리. 따라서 우리의 목표는 제곱 오차의 합을 최소화하는 것입니다. 여기서 -각 가 행이고 모든 있는 벡터 인 데이터 행렬 .w
따라서 목표는 이고 해는 ( "정상 방정식"으로 알려짐)입니다.최소 w ”X w − y ” 2
보이지 않는 새로운 데이터 포인트 의 경우 목표 값 를 예측합니다 .X
선형 회귀 모형에 많은 상관 변수가있는 경우 계수 는 잘못 결정될 수 있고 분산 이 많습니다 . 이 문제에 대한 해결책 중 하나는 무게 를 제한하여 일부 예산 초과하지 않도록하는 것 입니다. 이는 "무게 감쇄"라고도 하는 를 사용하는 것과 동일합니다 . 때로는 올바른 결과가 누락되는 경우 (예 : 약간의 편차를 유발하여) 편차를 줄입니다.승
목표는 이제 이고 는 정규화 매개 변수입니다. 수학을 통해 다음과 같은 솔루션을 얻습니다. . 일반적인 선형 회귀와 매우 유사하지만 여기서는 의 각 대각선 요소에 를 추가 합니다.최소 w ″X w −y ″ 2 +λ″ w ″ 2
를 로 다시 쓸 수 있습니다 자세한 내용 은 여기 참조). 보이지 않는 새로운 데이터 포인트 의 경우 목표 값 를 예측합니다 입니다. 보자 . 그런 다음 입니다.w
목표를 다르게 살펴보고 다음 2 차 프로그램 문제를 정의 할 수 있습니다.
최소 e , w n ∑ i = 1 e 2 i
그것은 같은 목표이지만 다소 다르게 표현되며 여기서 의 크기에 대한 제약 은 명시 적입니다. 이를 해결하기 위해 Lagrangian 정의합니다 이것은 초기 변수 및 를 포함하는 기본 형식입니다 . 그런 다음 wrt 및 최적화합니다 . 이중 공식화를 얻기 위해 found 와 를 .w
따라서 . 유도체 WRT 취하여 및 , 우리가 구 및 . 시켜서 , 퍼팅을 와 돌아 가기 우리 얻을 듀얼 라그랑지안L p ( w , e ;C)=” e ” 2 + β T ( y −X w − e )−λ( ″ w ″ 2 − C )
다음으로, 를 대한 기본 양식 솔루션에 넣고 . 따라서 이중 형식은 일반적인 Ridge Regression과 동일한 솔루션을 제공하며 동일한 솔루션을 얻는 다른 방법 일뿐입니다.α
커널은 특정 피쳐 공간에서 두 벡터를 방문하지 않고도 내부 벡터를 계산하는 데 사용됩니다. 커널 를 로 볼 수 있지만 이 무엇인지 알 수는 없습니다. 우리는 그것이 존재한다는 것을 알고 있습니다. RBF, Polynonial 등과 같은 많은 커널이 있습니다.k
커널을 사용하여 Ridge Regression을 비선형으로 만들 수 있습니다. 커널 가 있다고 가정 합니다. 하자 각 행에있는 행렬 , 즉k(x1,x2)=ϕ(x1)Tϕ(x2)
이제 우리는 Ridge Regression에 대한 솔루션을 취하고 모든 를 바꿀 수 있습니다 : 입니다. 보이지 않는 새로운 데이터 포인트 의 경우 목표 값 를 .X
먼저, 를 로 계산 된 행렬 대체 할 수 있습니다 . 그런 다음 는 . 그래서 여기서 우리는 문제의 모든 내적을 커널로 표현했습니다.Φ(X)Φ(X)T
마지막으로, (이전과 같이)를함으로써α=(K+λI)−1y