사람들이 커널 화 된 SVM을 다룰 때 왜 이차 프로그래밍 기술 (예 : SMO)을 사용합니까? 그라데이션 하강에 어떤 문제가 있습니까? 커널과 함께 사용하는 것이 불가능합니까, 아니면 너무 느립니다 (그리고 왜?).
좀 더 자세한 내용은 다음과 같습니다. SVM을 조금 더 이해하려고 노력하면서 Gradient Descent를 사용하여 다음 비용 함수를 사용하여 선형 SVM 분류기를 학습했습니다.
다음 표기법을 사용하고 있습니다.
- 는 모델의 피쳐 가중치이고 는 바이어스 파라미터입니다.
- 는 훈련 인스턴스의 특징 벡터입니다.
- 는 인스턴스의 대상 클래스 (-1 또는 1)입니다.
- 은 훈련 인스턴스 수입니다.
- 는 정규화 하이퍼 파라미터입니다.
이 방정식에서 (하위) 그라디언트 벡터 ( 및 )를 도출했으며 Gradient Descent는 정상적으로 작동했습니다.
이제 비선형 문제를 해결하고 싶습니다. 비용 함수에서 모든 내적을 를 로 바꿀 수 있습니까? 여기서 는 커널 함수입니다 (예 : Gaussian RBF, ), 다음 (하위) 그라데이션 벡터를 도출하고 그라데이션 하강과 함께 진행하는 미적분을 사용할 수 있습니까?
너무 느리면 왜 그렇습니까? 비용 함수가 볼록하지 않습니까? 아니면 기울기가 너무 빠르게 변하기 때문에 (립 쉬츠 연속이 아님) 하강 중에 알고리즘이 계곡을 가로 질러 계속 점프하므로 매우 느리게 수렴합니까? 그럼에도 불구하고 어떻게 이차 프로그래밍의 시간 복잡성, 즉 보다 더 나쁠 수 있습니까? 그것이 국소 적 최소의 문제라면, 모의 어닐링을 이용한 확률 론적 GD가 그것들을 극복 할 수 없는가?