Support Vector Machines의 일반화 능력에 대한 이론적 결과에 관심이 있습니다. 예를 들어 분류 오류 확률 및 이러한 시스템의 Vapnik-Chervonenkis (VC) 치수 등이 있습니다. 그러나 문헌을 통해 읽은 결과, 유사한 반복 결과가 특히 주어진 범위를 유지하는 데 필요한 기술적 조건과 관련하여 저자마다 약간 씩 다른 경향이 있다는 인상을 받았습니다.
내가 SVM 문제와 내가 재발 하 한 형태 또는 다른에서 발견되는 주요 일반화 결과의 상태 3의 구조를 기억합니다 다음에 나는 박람회에 걸쳐 3 명 주요 참조를 제공합니다.
문제 설정 :
독립적이고 동일하게 분포 된 (iid) 쌍 의 데이터 샘플이 있다고 가정합니다. 여기서 모든 에 대해 및 . 우리는 최소 마진 최대화하는 서포트 벡터 머신 (SVM) 구성 에 의해 정의 된 분리하는 초평면 사이 , 및 및 정의 된 두 클래스를 분리하기 위해 및 중 가장 가까운 지점 입니다. SVM은 슬랙 변수를 도입하여 소프트 마진을 통해 약간의 오류를 허용합니다. 하지만 편의상 위해 우리는 커널의 가능성을 무시합니다. 솔루션 매개 변수 및 는 다음 볼록 2 차 최적화 프로그램을 해결하여 얻습니다.
이 기계의 일반화 능력에 관심이 있습니다.
Vapnik-Chervonenkis 차원 :
첫 번째 결과는 (Vapnik, 2000)에 기인하며, 그는 분리 초평면, 정리 5.1의 VC 치수를 한정한다. 분들께 , 우리는 :
이 결과는 (Burges, 1998), 정리 6에서 다시 찾을 수 있습니다. 그러나 버프 스 정리는 Vapnik의 동일한 결과보다 더 제한적입니다. 그는 갭 허용 분류기로 알려진 분류기의 특수 범주를 정의해야하기 때문입니다. 정리 가 SVM에 속하는 .-
오류 확률에 대한 경계 :
(Vapnik, 2000)에서 139 페이지의 정리 5.2는 SVM 일반화 기능에 대해 다음과 같은 한계를 제공합니다.
여기서 는 SVM의 지원 벡터 수입니다. 이 결과는 (Burges, 1998), 식 (86) 및 (93)에서 각각 다시 발견되는 것으로 보입니다. 그러나 다시 Burges는 Vapnik과 다른 것처럼 보이며 위의 최소 기능 내에서 구성 요소를 조건에 따라 다른 정리로 분리합니다.
(Vapnik, 2000), p.133에 나타나는 다른 결과는 다음과 같습니다. 모든 , 대해 다시 가정 하고 및 하면 를 다음과 같게 정의 합니다.” x i ” 2 ≤ R 2 h ≡ V C ϵ ∈ [ 0 , 1 ] ζ
또한 를 SVM에 의해 잘못 분류 된 훈련 예의 수로 정의 합니다. 그런 확률로 우리는 테스트 예제가 제대로 분리되지 않을 확률 주장 할 수 -margin 초평면 즉, SVM과 마진 : 바운드있다 1 − ϵ m ∗ − m ∗ −
그러나 (Hastie, Tibshirani and Friedman, 2009), p.438에서 매우 비슷한 결과가 발견되었습니다.
결론 :
이 결과들 사이에는 어느 정도의 충돌이있는 것 같습니다. 반면에 SVM 문헌에서 정식이기는하지만이 참고 문헌 중 두 개는 약간 오래된 것으로 시작합니다 (1998 년과 2000 년). 특히 SVM 알고리즘에 대한 연구가 90 년대 중반에 시작되었다고 생각하면 더욱 그렇습니다.
내 질문은 :
- 이 결과가 오늘날에도 유효합니까, 아니면 잘못된 것으로 입증 되었습니까?
- 그 이후로 상대적으로 느슨한 조건으로 더 엄격한 경계가 도출 되었습니까? 그렇다면 누구와 어디서 찾을 수 있습니까?
- 마지막으로 SVM에 대한 주요 일반화 결과를 종합하는 참조 자료가 있습니까?
참고 문헌 :
JC Burges (1998). "패턴 인식을위한 벡터 머신 지원에 대한 튜토리얼", 데이터 마이닝 및 지식 발견 , 2 : 121-167
Hastie, T., Tibshirani, R. 및 Friedman, J. (2009). 통계 학습의 요소 , 2 판, Springer
Vapnik, VN (1998). 통계 학습 이론 , 1 판, John Wiley & Sons
Vapnik, VN (1999). "통계학 학습 이론의 개요", 신경망 에서의 IEEE 트랜잭션 , 10 (5) : 988-999