역 전파를 통해 SVM을 훈련시키는 방법?


11

역 전파를 사용하여 SVM을 훈련시킬 수 있는지 (예를 들어 선형적인 것을 만들 수 있는지) 궁금합니다.

현재 분류기의 출력

f(x;θ,b)=sgn(θx(b+1))=sgn(g(x;θ,b))

따라서 "역방향 패스"(전파 된 오류)를 계산하려고하면 보낸 유도체

Ex=Ef(x;θ,b)f(x;θ,b)x=Ef(x;θ,b)sgn(g(x;θ,b))g(x;θ,b)g(x;θ,b)x=δdsgn(z)dzθ=δ0θ=0
sgn(x)
dsgn(x)dx={0if x02δ(x)if x=0

마찬가지로 이므로 정보를 다시 전달하거나 그라디언트 업데이트를 수행 할 수 없습니다!E/θ=E/b=0

무엇을 제공합니까?

답변:


14

0-1 손실이라고도하는 교육 사례에서 SVM의 정확도를 직접 최적화하려고하면 그라디언트가 사라지는 것이 맞습니다. 이것이 사람들이 그렇게하지 않는 이유입니다. :)

당신이 뭘 하려는지,하지만하지 않습니다 정말 아직 SVM은; 오히려 일반적인 선형 분류기입니다. SVM은 특히 0-1 손실 기능을 힌지 손실 이라고하는 볼록한 대용으로 대체 할 때 발생합니다 . 이는 SVM 아이디어의 핵심 인 마진 최대화 아이디어에 해당합니다. 이 손실 기능은 (거의) 차별화 할 수 있습니다. 유일한 문제는 출력이 정확히 힌지 지점에있는 경우 (a) 가장 합리적인 가정에서 확률 0으로 발생하고 (b) 0 또는 1을 미분 (또는 그 사이의 모든 것)으로 사용할 수 있습니다. 어떤 경우에는 기술적으로 하급 하강을하고 있습니다.

역 전파에 대해 이야기하고 있으므로 신경망을 최적화하는 데 적어도 익숙하다고 가정합니다. 신경망 분류기에서도 동일한 문제가 발생합니다. 이것이 사람들이 다른 손실 기능을 사용하는 이유입니다.


따라서 정확하게 이해한다면 선형 SVM은 1 계층 NN이라고 생각할 수 있습니다. 단일 계층은 단지 힌지 손실이 있는 선형 변환 입니다. 함수? Ax+b
StevieP 2016 년

1
그렇습니다. 선형 SVM은 기본적으로 출력 노드에서 선형 활성화와 힌지 손실을 통해 훈련 된 1 계층 NN과 같습니다.
Dougal

5

선형 사례에만 관심이 있다면 로지스틱 회귀 (LR)가 볼록하고 분석적이므로 LR (로지스틱 회귀)이 더 나은 선택입니다 (정규화에 관심이있는 경우이를 제거 할 수 있음). 그러나 비선형으로 갈 때 까다로운 부분이 나타납니다. 선형이 아닌 경우 볼록하고 분석적인 것을 유지하는 합리적인 방법은 없습니다. 신경망에서는 볼록 함을 희생하고 svms에서는 동 형사상을 희생합니다.

엄밀히 말하면 LR과 SVM의 차이점은 없습니다 .svms는 점이있는 선의 측면을 예측합니다 .LR은 경계에서 얼마나 멀리 떨어져 있는지 고려합니다 (경계선에서 경계선에서 시그 모이 드는 확률 0.5를 제공합니다) LR의 경우). SVM은 비선형 커널의 경우 곡면 형 하이퍼 플레인 (대수 종류가 더 나은 용어 임)에서 거리의 직관이 선형의 경우와 동일하지 않기 때문에 이러한 절충안을 강요 당합니다. 실제로 하이퍼 표면에서 가장 짧은 거리를 해결하는 문제 특정 지점까지는 매우 어렵지만 (SVM 자체보다 단단함) Vapnik은 O (1) 시간과 같이 지점의 경계가 어느쪽에 있는지 쉽게 예측할 수 있다는 것을 깨달았습니다. 이것이 SVM의 진정한 통찰력이며 통계 학습 이론에서 볼 수있는 유일한 볼록 최적화 대안입니다. 그러나 내 느낌은 당신이 조금 과도하게 희생한다는 것입니다. 홀로 모피 즘과 확률 론적 성격은 모두 잃어 버렸습니다. 그러나지면 구조 SVM과 같은 특정 사례의 경우 볼록하지 않은 다른 대안과 달리 매우 신뢰할 수 있으며 반증 가능한 과학적 모델이기도합니다.

Tldr : 그렇습니다.


1
LR은 무엇을 의미합니까?
Sycorax는 Reinstate Monica

@ Sycorax 로지스틱 회귀
Franck Dernoncourt
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.