SVM 알고리즘의 기본 통계 모델은 무엇입니까?


28

모델 기반 접근 방식을 사용하여 데이터를 처리 할 때 첫 번째 단계는 데이터 모델을 통계 모델로 모델링하는 것입니다. 다음 단계는이 통계 모델을 기반으로 효율적 / 빠른 추론 / 학습 알고리즘을 개발하는 것입니다. 그래서 어떤 통계 모델이 SVM (Support Vector Machine) 알고리즘 뒤에 있는지 묻고 싶습니까?

답변:


27

손실 함수에 해당하는 모델을 작성하는 경우가 많습니다 (여기서는 SVM 분류가 아닌 SVM 회귀에 대해 설명하겠습니다. 특히 간단합니다).

예를 들어, 선형 모형에서 손실 함수가 나는(ε나는)=나는(와이나는엑스나는'β) 경우 입니다. (여기에는 선형 커널이 있습니다)에프특급(에이(ε)) =특급(에이(와이엑스'β))

올바르게 기억하면 SVM 회귀에는 다음과 같은 손실 기능이 있습니다.

입실론에 둔감 한 손실 도표

그것은 지수 꼬리가있는 중간에서 균일 한 밀도에 해당합니다 (음수 또는 음수의 배수를 지수화하여 알 수 있음).

해당 밀도의 플롯

여기에는 3 개의 매개 변수 군이 있습니다 : 코너 위치 (상대 무감도 임계 값)와 위치 및 스케일.

흥미로운 밀도입니다. 수십 년 전에 특정 분포를 살펴본 것을 기억하면 위치에 대한 좋은 추정량은 모서리가있는 위치에 해당하는 대칭 적으로 배치 된 2 개의 평균값입니다 (예 : 중간 힌지 가 특정 MLE에 대한 근사값을 제공함) SVM 손실에서 상수의 선택); 척도 모수에 대한 유사한 추정값은 그 차이를 기반으로하는 반면, 세 번째 모수는 기본적으로 모서리가 어느 백분위 수인지를 계산하는 데 해당합니다 (SVM에 대해 자주 추정되는 것보다 선택 될 수 있음).

따라서 SVM 회귀 분석의 경우 추정치를 최대 가능성으로 선택하는 경우에는 매우 간단 해 보입니다.

(당신이 묻는다면 ... 나는 SVM과 의이 특별한 연결에 대한 언급이 없습니다 : 나는 지금 그것을 해결했습니다. 그러나 너무 간단하지만 수십 명의 사람들이 나보다 먼저 그것을 해결했을 것입니다. 그것에 대한 참조가 있습니다-나는 본 적이 없습니다.)


2
(나는 이전에 다른 곳에서 대답했지만 여기에서 물었다는 것을 보았을 때 그것을 삭제하고 여기로 옮겼습니다. 수학을 작성하고 그림을 포함하는 기능이 여기에 훨씬 좋습니다. 검색 기능도 더 좋으므로 찾기가 더 쉽습니다.
Glen_b-복지국 Monica

2
+1과 함께 바닐라 SVM에는 -norm을 통한 매개 변수에 대해 가우시안이 있습니다. 2
Firebug

2
OP가 SVM에 대해 묻는 경우 분류 (SVM의 가장 일반적인 적용)에 관심이있을 수 있습니다. 이 경우 손실은 힌지 손실 이며 약간 다릅니다 (증가하는 부분이 없음). 이 모델과 관련하여 회의 에서 확률 론적 프레임 워크를 사용 하지 않고 분류를 수행하기 위해 SVM이 도입되었다고 말하는 학자들의 이야기를 들었습니다 . 아마도 이것이 참조를 찾을 수없는 이유 일 것입니다. 반면에 경험적 위험 최소화로 경첩 손실 최소화를 재
시도

4
단지 확률 론적 틀을 가질 필요가 없다고해서 ... 당신이하고있는 것이 하나와 일치하지는 않습니다. 정규성을 가정하지 않고 최소 제곱을 할 수는 있지만 그것이 잘하고있는 것을 이해하는 것이 유용합니다 ... 근처에있을 때 훨씬 덜 잘 할 수 있습니다.
Glen_b-복지 주 모니카

3
아마 icml-2011.org/papers/386_icmlpaper.pdf 는 이것에 대한 참조일까요? (나는 단지 그것을 감추었 습니다)
Lyndon White

8

누군가가 이미 당신의 문자 질문에 대답했다고 생각하지만 잠재적 혼란을 없애 드리겠습니다.

귀하의 질문은 다음과 다소 유사합니다.

에프(엑스)=

다시 말해서, 그것은 확실히 유효한 답을 가지고 있지만 (정규 제약 조건을 부과한다면 아마도 독특한 답일 수도 있지만), 그 기능을 처음으로 일으킨 미분 방정식이 아니기 때문에 물어 보는 것은 다소 이상한 질문입니다.
반면에 미분 방정식이 주어지면 해 를 구하는 것이 당연합니다.

이유는 다음과 같습니다 . 데이터에서 공동 및 조건부 확률 추정을 기반으로 확률 / 통계 모델, 특히 생성차별 모델을 생각한다고 생각합니다 .

SVM도 마찬가지입니다. 완전히 다른 종류의 모델입니다. 모델을 무시하고 최종 결정 경계를 직접 모델링하려고 시도하면 확률이 저하됩니다.

의사 결정 경계의 형태를 찾는 것에 관한 것이기 때문에 그 직관은 확률 론적이거나 통계적인 것이 아니라 기하학적 (또는 최적화 기반이라고 말해야 함)입니다.

확률은 정말 어디 길을 따라 고려되지 않은 점을 감안, 다음, 그것은 해당하는 확률 모델이 될 수 있는지 물어 오히려 이상한, 그리고 전체 목표는 것이 었습니다, 특히 때문에 피할 확률에 대해 걱정할 필요. 그러므로 왜 사람들이 그들에 대해 이야기하는 것을 보지 못합니까?


6
절차의 기초가되는 통계 모델의 가치를 할인한다고 생각합니다. 유용한 이유는 메소드 뒤에 어떤 가정이 있는지 알려주기 때문입니다. 이러한 사실을 알면 어떤 상황에서 어려움을 겪고 언제 번성할지 이해할 수 있습니다. 기본 모델이있는 경우 원칙적으로 svm을 일반화하고 확장 할 수 있습니다.
probabilityislogic

3
@probabilityislogic : "귀하의 절차에 기초한 통계 모델의 가치를 할인한다고 생각합니다." ... 우리가 서로 과거를 말하는 것 같아. 내가 말하려는 것은 절차 뒤에 통계 모델 이 없다는입니다 . 나는 그것이 후세에 맞는 것을 생각해내는 것이 불가능 하다고 말하지는 않지만 그것이 그것이 어떤 식 으로든 "뒤에"있지 않고 오히려 사실 후에 "적합하다"고 설명하려고합니다 . 나는 또한 그런 일을하는 것이 쓸모 없다고 말하지 않습니다 . 나는 그것이 엄청난 가치로 끝날 수 있음에 동의합니다. 이러한 차이점을 명심하십시오.
Mehrdad

1
@Mehrdad : 나는 그것을 사후에 맞는 것을 생각해 낼 수 없다고 말하는 것이 아닙니다. 우리가 svm을 '기계'라고 부르는 부분이 조립 된 순서 (원래 그것을 설계 한 인간이 시도한 문제 과학의 관점에서 볼 때 흥미 롭습니다. 그러나 200 년 전의 svm 엔진에 대한 설명이 포함 된 일부 라이브러리에는 아직 알려지지 않은 원고가있을 수 있습니다.이 글은 Glen_b가 조사한 각도에서 문제를 공격합니다. 어쩌면의 개념 사후사후는 과학 덜 신뢰할 수 있습니다.
user603

1
@ user603 : 여기서 문제가 된 것은 역사가 아닙니다. 역사적 측면은 절반에 불과합니다. 나머지 절반은 실제로 실제로 실제로 파생되는 방법입니다. 지오메트리 문제로 시작하여 최적화 문제로 끝납니다. 유도에서 확률 론적 모델로 시작하는 사람은 아무도 없습니다. 이는 확률 론적 모델이 의미 "결과 뒤에"있다는 것을 의미하지 않습니다. Lagrangian 역학이 "뒤에"있다고 주장하는 것과 같습니다. F = ma. 어쩌면 그것은 그것을 이끌어 낼 수 있으며, 그렇습니다. 유용하지만, 그렇지 않습니다. 실제로 전체 목표 는 확률 을 피하는 것이 었습니다 .
Mehrdad
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.