SVM의 일반화 범위


11

Support Vector Machines의 일반화 능력에 대한 이론적 결과에 관심이 있습니다. 예를 들어 분류 오류 확률 및 이러한 시스템의 Vapnik-Chervonenkis (VC) 치수 등이 있습니다. 그러나 문헌을 통해 읽은 결과, 유사한 반복 결과가 특히 주어진 범위를 유지하는 데 필요한 기술적 조건과 관련하여 저자마다 약간 씩 다른 경향이 있다는 인상을 받았습니다.

내가 SVM 문제와 내가 재발 하 한 형태 또는 다른에서 발견되는 주요 일반화 결과의 상태 3의 구조를 기억합니다 다음에 나는 박람회에 걸쳐 3 명 주요 참조를 제공합니다.

문제 설정 :

독립적이고 동일하게 분포 된 (iid) 쌍 의 데이터 샘플이 있다고 가정합니다. 여기서 모든 에 대해 및 . 우리는 최소 마진 최대화하는 서포트 벡터 머신 (SVM) 구성 에 의해 정의 된 분리하는 초평면 사이 , 및 및 정의 된 두 클래스를 분리하기 위해 및 중 가장 가까운 지점 입니다. SVM은 슬랙 변수를 도입하여 소프트 마진을 통해 약간의 오류를 허용합니다.(xi,yi)1inixiRpyi{1,1}m{x:wx+b=0}wRpbRx1,,xny=1y=1ξ1,,ξn 하지만 편의상 위해 우리는 커널의 가능성을 무시합니다. 솔루션 매개 변수wb 는 다음 볼록 2 차 최적화 프로그램을 해결하여 얻습니다.

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

이 기계의 일반화 능력에 관심이 있습니다.

Vapnik-Chervonenkis 차원 VC :

첫 번째 결과는 (Vapnik, 2000)에 기인하며, 그는 분리 초평면, 정리 5.1의 VC 치수를 한정한다. 분들께 R=maxxixi, 우리는 :

VCmin((Rm)2,p)+1

이 결과는 (Burges, 1998), 정리 6에서 다시 찾을 수 있습니다. 그러나 버프 스 정리는 Vapnik의 동일한 결과보다 더 제한적입니다. 그는 갭 허용 분류기로 알려진 분류기의 특수 범주를 정의해야하기 때문입니다. 정리 가 SVM에 속하는 .-

오류 확률에 대한 경계 :

(Vapnik, 2000)에서 139 페이지의 정리 5.2는 SVM 일반화 기능에 대해 다음과 같은 한계를 제공합니다.

E[Perror]1nE[min(p,nSV,(Rw)2)]

여기서 는 SVM의 지원 벡터 수입니다. 이 결과는 (Burges, 1998), 식 (86) 및 (93)에서 각각 다시 발견되는 것으로 보입니다. 그러나 다시 Burges는 Vapnik과 다른 것처럼 보이며 위의 최소 기능 내에서 구성 요소를 조건에 따라 다른 정리로 분리합니다.nSV

(Vapnik, 2000), p.133에 나타나는 다른 결과는 다음과 같습니다. 모든 , 대해 다시 가정 하고 및 하면 를 다음과 같게 정의 합니다.x i 2R 2 h V C ϵ [ 0 , 1 ] ζixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

또한 를 SVM에 의해 잘못 분류 된 훈련 예의 수로 정의 합니다. 그런 확률로 우리는 테스트 예제가 제대로 분리되지 않을 확률 주장 할 수 -margin 초평면 즉, SVM과 마진 : 바운드있다 1 ϵ m m nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

그러나 (Hastie, Tibshirani and Friedman, 2009), p.438에서 매우 비슷한 결과가 발견되었습니다.

ErrorTestζ

결론 :

이 결과들 사이에는 어느 정도의 충돌이있는 것 같습니다. 반면에 SVM 문헌에서 정식이기는하지만이 참고 문헌 중 두 개는 약간 오래된 것으로 시작합니다 (1998 년과 2000 년). 특히 SVM 알고리즘에 대한 연구가 90 년대 중반에 시작되었다고 생각하면 더욱 그렇습니다.

내 질문은 :

  • 이 결과가 오늘날에도 유효합니까, 아니면 잘못된 것으로 입증 되었습니까?
  • 그 이후로 상대적으로 느슨한 조건으로 더 엄격한 경계가 도출 되었습니까? 그렇다면 누구와 어디서 찾을 수 있습니까?
  • 마지막으로 SVM에 대한 주요 일반화 결과를 종합하는 참조 자료가 있습니까?

참고 문헌 :

JC Burges (1998). "패턴 인식을위한 벡터 머신 지원에 대한 튜토리얼", 데이터 마이닝 및 지식 발견 , 2 : 121-167

Hastie, T., Tibshirani, R. 및 Friedman, J. (2009). 통계 학습의 요소 , 2 판, Springer

Vapnik, VN (1998). 통계 학습 이론 , 1 판, John Wiley & Sons

Vapnik, VN (1999). "통계학 학습 이론의 개요", 신경망 에서의 IEEE 트랜잭션 , 10 (5) : 988-999

Vapnik, VN (2000). 통계 학습 이론의 본질 , 2 판, Springer


SVM에 대한 최신 (2008 년 기준) 위험 범위를 요약 한 참조 : "지원 벡터 머신"(Ingo Steinwart, Andreas Christmann, Springer 2008) .
등록

답변:


3

나는 당신이 언급 한 문헌을 자세히 알지 못하지만, Boucheron et al.에서 최신의 일반화 범위에 대한 포괄적 인 요약을 찾을 수 있다고 생각합니다. (2004) (링크 : https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- 캔버라-호주 -2 월 2 월 14 일 -2003- 튀빙겐-독일 -8 월 -4-16-2003- 개정-강의 .pdf # page = 176 )

나는 SVM의 일부를 다음과 같이 묶어 상세하게 설명하고 증명할 것이다.

SVM 바운드에 대해 구체적으로 설명하기 전에 일반화 바운드가 달성하려는 것을 이해해야합니다.

먼저 실제 확률 를 알고 있다고 가정 하면 가장 적합한 분류 기준은 베이 분류 기준입니다. 즉 g * = { + 1 I F P ( Y = 1 | X = X ) > 0.5 - 1 O t H E R w I EP(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

통계 학습 이론의 목표는 이제 클래스 의 분류 자 (예 : SVM) 및 베이 분류기, 즉 참고 인 예상 손실이 소정의 데이터 및 모델 클래스에서 최적의 분류이다 . 용어 는 오차 (다른 용어)보다 훨씬 쉽게 경계 수 있으므로 추정 에러와 종종 초점 불린다. 또한 여기에서 근사 오류를 생략합니다.g N = R g g C L , N ( g ) L ( g을 N ) -C

g^n=argmingCLn(g)
L(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

추정 오차 는 로 더 분해 될 수있다 이제 두 단계로 묶을 수 있습니다.Z

Z=ZEZ+EZ.
  1. 경계 McDiarmid 불평등을 사용한ZEZ

  2. Rademacher 복잡도를 가진 경계EZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

McDiarmids 부등식을 사용하면 손실 함수가 이하의 범위에 있으면 단계 1은 여기서 는 신뢰 수준입니다. 두 번째 단계에서 우리는 수 있습니다. -손실, 당신은 Rademacher 복잡성을 더 경계하기 위해 VC 차원이 필요합니다. 그러나 힌지 손실과 같은 L-lipschitz 함수의 경우 의해 추가로 제한 될 수 있습니다. 여기서B

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
λ
Rn(C)λLR/n,

λ정규화기를 나타냅니다. Hinge-Loss 및 (Gauchy-Schwartz 불평등으로 증명 됨)의 경우 이는 더욱 단순화됩니다. 마지막으로 모든 결과를 종합하면 L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.