SVM 회귀 이해 : 목적 함수 및 "평탄도"


12

분류를위한 SVM은 직관적입니다. 최소화 하면 최대 마진 이 어떻게 산출 되는지 이해합니다 . 그러나 회귀의 맥락에서 그 목표를 이해하지 못합니다. 다양한 텍스트 ( 여기여기 )는 이것을 "평평함"을 최대화하는 것으로 설명합니다. 왜 그렇게하고 싶습니까? 회귀에서 "여백"의 개념과 동등한 것은 무엇입니까?||θ||2

여기 몇 가지 시도 된 답변이 있지만 실제로 내 이해에 도움이 된 것은 없습니다.


나는 실제로 SVM 이론에 의존하지 않지만, 당신이 연결하는 커널 머신 토론에서 '평평함'은 '작은 이차 미분이있다'(스플라인 스무딩 모델에 대한 전형적인 동기를 생각한다)에 상당한 것으로 보인다 .
공역 사전

답변:


11

편평도에 대해 생각하는 한 가지 방법은 예측이 기능의 섭동에 덜 민감하다는 것입니다. 내가 양식의 모델을 구성하고있는 경우 즉, 내 특징 벡터 이미 다음 작은 값을 정규화 된 의미를 내 모델은 측정의 오류에 덜 민감 / 무작위 충격 / 특징의 불안정성 . 데이터를 똑같이 잘 설명하는 두 가지 모델 ( 즉, 두 개의 가능한 값)이 주어지면 '더 평평한'모델을 선호합니다.x θ x θ

y=xθ+ϵ,
xθxθ

또한 Ridge Regression은 커널 트릭이나 SVM 'tube'회귀 공식없이 동일한 기능을 수행하는 것으로 생각할 수 있습니다.

edit : @Yang의 의견에 대한 답변으로 몇 가지 추가 설명이 있습니다.

  1. 선형 경우를 고려하십시오 : . 가 와 무관하게 일부 배포판에서 iid로 그려 졌다고 가정하십시오 . 내적 곱으로 . 여기서 는 와 사이의 각도 이며 , 구 면적으로 균일 한 분포로 분포 될 수 있습니다. 이제 참고 : '확산'( 예를 들어, 우리의 예측의 샘플 표준 편차) 비례하는 것입니다. 잠복의 무소음 버전의 관측으로 좋은 MSE를 얻으려면.x θ y = | | x | | | | θ | | cos ψ + ϵ ψ θ x y | | θ | | | | θ | |y=xθ+ϵxθy=||x||||θ||cosψ+ϵψθxy||θ||||θ||cf 제임스 스타 인 추정기 .
  2. 많은 기능을 가진 선형 사례를 고려하십시오. 및 모델을 고려하십시오 . 경우 이상이 제로 요소가 는 적은 수의 변수에 종속 (이 있기 때문에,하지만 같은 설명 전원에 대해, 우리는, 오캄의 면도날에 기반을 선호하는 것 , 즉 우리가 '완료 기능 선택'을 가지고 몇 가지 요소를 설정하여이 의 제로). 편평도는이 주장의 연속적인 버전입니다. 각 한계에 단위 표준 편차가 있고 에 예를 들어 10 인 2 개의 요소와 나머지y = x θ 2 + ϵ θ 1 θ 2 θ 1 x θ 1 n 2y=xθ1+ϵy=xθ2+ϵθ1θ2θ1xθ1n2노이즈 허용 오차에 따라 0.0001보다 작습니다. 이는 두 기능을 효과적으로 '선택'하고 나머지 기능은 제로화합니다.
  3. 커널 트릭을 사용하면 높은 (때로는 무한한) 차원 벡터 공간에서 선형 회귀를 수행합니다. 의 각 요소는 이제 기능이 아니라 샘플 중 하나에 해당 합니다 . 경우 요소 비 제로이고, 나머지 에 대응하는 기능이 제로인 의 비 - 제로 엘리먼트 하여 '지원 벡터 "라고한다. 디스크에 SVM 모델을 저장하려면 특징 벡터 만 유지 하면되며 나머지는 버릴 수 있습니다. 있기 때문에 평탄도는 정말로 중요합니다.k θ m k k θ k k θ l lθkθmkkθkk작게는 저장 및 전송 의 요구 사항을 줄입니다. 다시 한 번, 노이즈에 대한 허용 오차에 따라 SVM 회귀를 수행 한 후 의 모든 요소를 ​​제로화 할 수 있지만 일부 경우 가장 큰 요소 는 입니다. 여기서 평탄도는 지원 벡터의 수와 관련하여 parsimony와 같습니다.θll

1
그래서 이것은 기본적으로 OLS의 2 차 손실 함수가 아닌 '튜브'손실 함수 (예측 점 +/- 엡실론에 대한 0 페널티)로 회귀입니까?
공역 사전

@Conjugate Prior : 예. 일반적으로 커널 회귀는 'epsilon-inenstive loss'함수를 최소화합니다. 생각할 수 있습니다 (예 : kernelsvm.tripod.com 또는 Smola 의 논문 . f(x)=(|x|ϵ)+
shabbychef

@shabbychef 감사합니다. 나는 항상 그곳에서 무슨 일이 있었는지 궁금했습니다.
공역 사전

@Conjugate Prior : 이것이 실제로 원하는 손실 함수라고 생각하지 않지만 수학은 잘 작동하므로 결과가 좋았습니다. 적어도 저의 의심입니다.
shabbychef

@ shabbychef : 나는 아직도 길을 잃었다. 1 차원 경우를 고려하십시오 : . 가 최소화 하는 것은 더 수평선을 주는 것 입니다. 이 파생 상품과는 아무런 관련이없는 것 같습니다. "부드러움"이라고 언급하고 있습니다. 샘플 포인트가 (0,0) 및 (1,1e9) 인 경우 왜 더 평평한 선을 선호합니까? 즉, 내 허용 오차가 1 이라고 말하십시오. 왜 (1,1e9) 를 통과하는 선 대신에 (0,0)에서 (1,1e9-1) ( ) 까지 더 평평한 선을 선호합니까? ) 또는 (1,1e9 + 1) ( )을 통과하는 선 입니까? θ ϵ θ = 1 e 9 1 θ = 1 e 9 θ = 1 e 9 + 1y=θxθϵθ=1e91θ=1e9θ=1e9+1
Yang

3

shabbychef 는 모델 복잡성의 관점에서 매우 명확한 설명을했습니다. 나는 누군가에게 도움이 될 수 있도록 다른 관점 에서이 문제를 이해하려고 노력할 것입니다.

기본적으로 우리는 SVC에서 마진을 최대화하려고합니다. 더 나은 일반화를 위해 정의 된 정밀도 에서 예측 오차 를 최대화하고자하는 반면 SVR에서도 마찬가지입니다 . 여기서 최대화 대신 예측 오류를 최소화하면 알 수없는 데이터에 대한 예측 결과가 과적 합 될 가능성이 높습니다. 1 차원 경우 "예측 오류 최대화"에 대해 생각해 봅시다.e

1 차원 경우, 우리의 목표는 모든 점 에서 내의 추세선 까지의 거리를 최대화하는 것입니다 . 정밀도의 제약을 로 설정 하여 거리를 최소화 하지 않고 최대화 할 수 있습니다 . 그런 다음 점에서 선까지의 거리에 대한 매우 간단한 방정식을 살펴 보겠습니다.Y = ω X + B E E(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

현재 분자는 로 제한됩니다 . 거리를 최대화하기 위해 을 최소화하려고합니다 .ωeω

거리 방정식이 항상 유클리드 거리 이므로 누구나 1 차원 케이스를 N 차원 케이스로 쉽게 확장 할 수 있습니다 .

또한 비교를 위해 SVR의 최적화 문제를 검토 할 수도 있습니다 [1].

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

감사.

[1] Smola, A. 및 B. Schölkopf. 지원 벡터 회귀에 대한 자습서. 통계 및 컴퓨팅, Vol. 14, No. 3, 2004 년 8 월, pp. 199–222.


0

적어도 를 최소화 하는 것은 SVM 분류 설정에서 와 같이 개념 마진 과 관련이 있다고 생각하지 않습니다 . 위의 두 게시물에 의해 완전히 설명 된 완전히 다른 목표를 제공합니다. 즉, 모델 복잡성을 줄이고 과적 합을 피합니다.θ

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.