분류를위한 SVM은 직관적입니다. 최소화 하면 최대 마진 이 어떻게 산출 되는지 이해합니다 . 그러나 회귀의 맥락에서 그 목표를 이해하지 못합니다. 다양한 텍스트 ( 여기 및 여기 )는 이것을 "평평함"을 최대화하는 것으로 설명합니다. 왜 그렇게하고 싶습니까? 회귀에서 "여백"의 개념과 동등한 것은 무엇입니까?
여기 몇 가지 시도 된 답변이 있지만 실제로 내 이해에 도움이 된 것은 없습니다.
분류를위한 SVM은 직관적입니다. 최소화 하면 최대 마진 이 어떻게 산출 되는지 이해합니다 . 그러나 회귀의 맥락에서 그 목표를 이해하지 못합니다. 다양한 텍스트 ( 여기 및 여기 )는 이것을 "평평함"을 최대화하는 것으로 설명합니다. 왜 그렇게하고 싶습니까? 회귀에서 "여백"의 개념과 동등한 것은 무엇입니까?
여기 몇 가지 시도 된 답변이 있지만 실제로 내 이해에 도움이 된 것은 없습니다.
답변:
편평도에 대해 생각하는 한 가지 방법은 예측이 기능의 섭동에 덜 민감하다는 것입니다. 내가 양식의 모델을 구성하고있는 경우 즉, 내 특징 벡터 이미 다음 작은 값을 정규화 된 의미를 내 모델은 측정의 오류에 덜 민감 / 무작위 충격 / 특징의 불안정성 . 데이터를 똑같이 잘 설명하는 두 가지 모델 ( 즉, 두 개의 가능한 값)이 주어지면 '더 평평한'모델을 선호합니다.x θ x θ
또한 Ridge Regression은 커널 트릭이나 SVM 'tube'회귀 공식없이 동일한 기능을 수행하는 것으로 생각할 수 있습니다.
edit : @Yang의 의견에 대한 답변으로 몇 가지 추가 설명이 있습니다.
shabbychef 는 모델 복잡성의 관점에서 매우 명확한 설명을했습니다. 나는 누군가에게 도움이 될 수 있도록 다른 관점 에서이 문제를 이해하려고 노력할 것입니다.
기본적으로 우리는 SVC에서 마진을 최대화하려고합니다. 더 나은 일반화를 위해 정의 된 정밀도 에서 예측 오차 를 최대화하고자하는 반면 SVR에서도 마찬가지입니다 . 여기서 최대화 대신 예측 오류를 최소화하면 알 수없는 데이터에 대한 예측 결과가 과적 합 될 가능성이 높습니다. 1 차원 경우 "예측 오류 최대화"에 대해 생각해 봅시다.
1 차원 경우, 우리의 목표는 모든 점 에서 내의 추세선 까지의 거리를 최대화하는 것입니다 . 정밀도의 제약을 로 설정 하여 거리를 최소화 하지 않고 최대화 할 수 있습니다 . 그런 다음 점에서 선까지의 거리에 대한 매우 간단한 방정식을 살펴 보겠습니다.Y = ω X + B E E
현재 분자는 로 제한됩니다 . 거리를 최대화하기 위해 을 최소화하려고합니다 .ω
거리 방정식이 항상 유클리드 거리 이므로 누구나 1 차원 케이스를 N 차원 케이스로 쉽게 확장 할 수 있습니다 .
또한 비교를 위해 SVR의 최적화 문제를 검토 할 수도 있습니다 [1].
감사.
[1] Smola, A. 및 B. Schölkopf. 지원 벡터 회귀에 대한 자습서. 통계 및 컴퓨팅, Vol. 14, No. 3, 2004 년 8 월, pp. 199–222.