하드 마진 SVM의 손실 기능은 무엇입니까?

23

$\max(0,1-y_i(w^\intercal x_i+b))$

\frac{1}{2} ‖ w ‖^{2} + C \sum_{i} max (0, 1 - y_{i} (w^{⊺} x_{i} + b))

$\frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b))$

‖ w ‖^{2}

$\|w\|^2$

max (0, 1 - y_{i} (w^{⊺} x_{i} + b))

$\max(0,1-y_i(w^\intercal x_i+b))$

그러나 하드 마진 SVM의 경우 전체 목적 함수는

\frac{1}{2} ‖ w ‖^{2}

$\frac{1}{2}\|w\|^2$ . 이는 하드 마진 SVM이 손실 기능없이 정규화기만 최소화한다는 의미입니까? 매우 이상하게 들립니다.

만약이 경우에 $\frac{1}{2}\|w\|^2$ 가 손실 함수라면, 2 차 손실 함수라고 부를 수 있습니까? 그렇다면 왜 하드 마진 SVM의 손실 함수가 소프트 마진 SVM에서 정규화되고 2 차 손실에서 힌지 손실로 변경됩니까?

svm loss-functions

— 로운
소스

내가 이해하는 바에 따르면, 하드 마진은 마진의 데이터를 수락하지 않음을 의미합니다. 결과적으로 max (0, calculation)은 항상 0을 반환합니다.

— fxm

26

소프트 마진 SVM 의 힌지 손실 항 $\sum_i\max(0,1-y_i(\mathbf{w}^\intercal \mathbf{x}_i+b))$ 는 오 분류에 불이익을 줍니다. 하드 마진 SVM에는 정의에 따라 오 분류가 없습니다.

이것은 실제로 하드 마진 SVM이 를 최소화하려고 함을 의미합니다 $\|\mathbf{w}\|^2$ . SVM 문제의 공식화로 인해 마진은 $2/\|\mathbf{w}\|$ . 따라서 의 표준을 최소화 $\mathbf{w}$ 하는 것은 마진을 최대화하는 것과 기하학적으로 동일합니다. 정확히 우리가 원하는 것!

정규화 는 솔루션 벡터에서 큰 계수에 불이익을 주어 과적 합을 피하는 기술입니다. 하드 마진 SVM에서 손실 기능 둘 다 와 regularizer은. $\|\mathbf{w}\|^2$ $L_2$

소프트 마진 SVM에서 힌지 손실 항 은 정규화 기처럼 작동하지만 대신 대신 에서 여유 변수에 합니다. 정규화는 희소성을 유발 지원 벡터 측면에서 표준 SVM이 희박합니다 (최소 제곱 SVM과 달리). $\mathbf{w}$ $L_1$ $L_2$ $L_1$

— 마크 클라 센
소스

마지막 두 단락을 좀 더 자세하고 수학적으로 설명 할 수 있습니까?

— Nain

0

명확히하기 위해, 는 점이 선형으로 분리 가능해야한다는 제약 조건에 따라 최소화됩니다 (즉, 하나를 완벽하게 분리하는 초평면을 그릴 수 있음). 다시 말해, 솔루션으로 고려할 수있는 w의 유일한 허용 된 값은 두 지점 세트를 분리하는 값입니다.

\frac{1}{2} ” 승 ”^{2}

$\frac{1}{2}\|w\|^2$

이제는 하드 마진 SVM이 소프트 마진보다 더 쉽게 "과적 합"한다고 생각됩니다. 충분히 높은 RBF SVM을 사용하면 상상하기가 더 쉬워지고 (과도하게) 복잡하고 (잠재적으로) 과적 합 결정 경계를 만들 수 있습니다. 마진이 높을수록 ( "C"가 높을수록 부정확하게 모방 됨), 두 세트의 점을 완벽하게 분류하는 결정 경계를 찾기가 더 어려워집니다. $\gamma$

"소프트 마진"으로 이동하면 제약 조건이 완화되고 "느슨한"도입을 통해 구속으로 대체됩니다. 이 여유 변수는 "힌지 손실"이라는 용어로 정의됩니다. 단순화 후, 모두가 SVM과 연관시키는 손실 기간과 같은 경첩 + l2에 도달합니다. FWIW, 전적으로 "그라디언트 따르기"문제 대신 SVM을 더 많은 최적화 문제로 프레임 화하고 싶습니다.

— 이샨 파텔
소스