SVM을 분류 확률로 해석하는 것이 왜 잘못 되었습니까?


11

SVM에 대한 나의 이해는 로지스틱 회귀 (LR)와 매우 유사하다는 것입니다. 즉, 가중 된 기능의 합이 시그 모이 드 함수에 전달되어 클래스에 속할 확률을 얻지 만 교차 엔트로피 (물리적) 손실 대신 기능, 훈련은 힌지 손실을 사용하여 수행됩니다. 힌지 손실을 사용하면 얻을 수있는 이점은 커널을보다 효율적으로 만들기 위해 다양한 수치 트릭을 수행 할 수 있다는 것입니다. 그러나 결과 모델에는 해당 LR 모델보다 정보가 적다는 단점이 있습니다. 따라서, 예를 들어, kernelisation없이 SVM 결정 경계 (선형 커널을 사용) 여전히 같은 위치 LR겠습니까 출력 0.5의 확률에있을 것입니다, 하지만 하나는 얼마나 빨리 멀리 클래스 붕괴에 속하는 확률 말할 수 없다 결정 경계.

내 두 가지 질문은 다음과 같습니다

  1. 내 해석이 정확합니까?
  2. 힌지 손실을 사용하면 SVM 결과를 확률로 해석하는 것이 어떻게 무효화됩니까?

답변:


8

SVM은 시그 모이 드 기능에 아무것도 공급하지 않습니다. 한 클래스의 훈련 세트에서 모든 데이터 포인트를 한쪽에, 다른 클래스의 모든 포인트를 다른쪽에 배치하는 데이터에 분리 초평면을 맞 춥니 다. 따라서 특징 벡터가 어느쪽에 있는지에 따라 클래스를 할당합니다. 보다 공식적으로, 특징 벡터를 로, 초평면 계수를 , 으로 인터셉트를 표시하면 클래스 할당은 . SVM을 해결하면xββ0y=sign(βx+β0)β,β0가능한 최대 마진으로 힌지 손실을 최소화합니다. 따라서 SVM은 현재 사용중인 하이퍼 플레인의 어느쪽에 만 관심이 있기 때문에 클래스 할당을 확률로 변환 할 수 없습니다.

선형 SVM (커널 없음)의 경우 결정 경계는 로지스틱 회귀 모델의 결정 경계와 유사하지만 SVM에 맞추기 위해 사용한 정규화 강도에 따라 달라질 수 있습니다. SVM과 LR은 서로 다른 최적화 문제를 해결하므로 의사 결정 경계에 대해 동일한 솔루션을 보장 할 수 없습니다.

일을 명확히하는 데 도움이됩니다 SVM에 대한 거기서 많은 자원이있다 : 여기에 하나의 예이고, 또 다른 하나.


higgs boson 매우 도움이됩니다. 감사합니다! 몇 가지 후속 질문 : (1) SVM 결정 경계가 LR과 유사하지 않을 때 직관적 인 예를 제시 할 수 있습니까?, (2) 선형 SVM 및 LR 중 하나가 다른 것보다 일반적으로 더 좋거나 있습니까? 어느 쪽이 바람직한가?
GingerBadger

2
Alex : 일반적으로 선형 SVM과 LR은 일반적으로 실제로 비슷한 성능을 발휘합니다. 확률 적 출력을 원하면 LR을 사용하십시오. 수업 과제 만 신경 쓰면 둘 중 하나를 사용할 수 있습니다. 의사 결정 경계가 매우 다른 예를 원한다면 의사 결정 경계에서 멀리 떨어진 잘못된 클래스의 소수 점으로 선형으로 분리 가능한 데이터 세트를 상상할 수 있습니다. 특이 치가 로지스틱 회귀 경계를 자신쪽으로 가져 오지만 정규화 항이 충분히 큰 SVM이있는 경우 특이 치를 무시합니다.
higgs broson
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.