SVM, 가변 상호 작용 및 교육 데이터 적합


12

나는 두 가지 일반적인 / 더 이론적 인 질문이 있습니다.

1) 예측 모델을 작성할 때 SVM이 변수 상호 작용을 처리하는 방법이 궁금합니다. 예를 들어, f1과 f2의 두 가지 기능이 있고 목표가 f1, f2에 의존하고 f1 * f2 (또는 일부 함수 h (f1, f2))라고 말하면 SVM이 적합합니까 (OOS뿐만 아니라 훈련 데이터에도) f1 및 f2를 포함하는 것 이상의 기능에 f1, f2 및 h (f1, f2)를 포함 시키면 개선됩니까? SVM 알고리즘은 기능 상호 작용을 처리합니까? SVM이 더 높은 차원의 공간에서 초평면을 생성하려고 시도하는 것처럼 보이지만 그렇게 요구하고 싶지는 않습니다.

2) SVM을 훈련 데이터에 장착 할 때 충분한 기능과 최적의 매개 변수 찾기 (무차별 검색 등)를 통해 SVM이 훈련 데이터에 항상 적합할까요? 내가 올바르게 말했는지 확실하지 않지만 기본적으로 기능에 충분한 분산 / 소음이있는 경우 SVM이 항상 훈련 데이터에 100 % 적합합니까? 반대로, SVM이 교육 데이터에 100 % 적합하지 않은 경우 데이터에서 캡처되지 않은 대상 변수에 영향을주는 정보 (또는 다른 기능)가 있다는 의미입니까?

감사

작은 설명. 커널 SVM을 구체적으로 언급하고 있습니다.

답변:


8

highBandwidth에서 알 수 있듯이 선형 SVM을 사용하는지 아니면 비선형을 사용하는지에 따라 다릅니다 (커널을 사용하지 않으면 pedantic이기 때문에 SVM이 아니라 최대 마진 선형 분류기입니다).

최대 마진 선형 분류기는 데이터 생성 프로세스가 속성간에 상호 작용이 있음을 의미하는 경우 이러한 상호 작용 항을 제공하면 성능이 향상 될 수 있다는 점에서 다른 선형 분류기와 다르지 않습니다. 최대 마진 선형 분류기는 과적 합 (정규화 매개 변수에 제공된 적절한 값)을 피하도록 설계된 페널티 항에 약간의 차이가있는 릿지 회귀와 비슷하며 대부분의 경우 릿지 회귀 및 최대 마진 분류기는 유사한 성능을 제공합니다.

K(x,x)=(xx+c)ddc

nn1초평면 (참조 VC 치수)에 의해 치수 공간이 임의의 방식으로 분리 될 수있다. 이렇게하면 일반적으로 심한 과적 합이 발생하므로 피해야합니다. 최대 마진 분류의 요점은 가능한 가장 큰 분리가 달성되었음을 의미하는 페널티 항을 추가하여이 과적 합을 제한하는 것입니다 (오 분류를 생성하기 위해 모든 훈련 예에서 가장 큰 편차가 필요함). 즉, 너무 많은 피팅을하지 않고도 데이터를 매우 높은 차원의 공간 (선형 모델이 매우 강력한 공간)으로 변환 할 수 있습니다.

K(x,x)=expγxx2

그러나 이것은 이야기의 일부일뿐입니다. 실제로, 우리는 일반적으로 마진 제약을 위반할 수있는 소프트 마진 SVM을 사용하며 마진을 최대화하는 것 사이의 트레이드 오프를 제어하는 ​​정규화 매개 변수가 있습니다. 능선 회귀) 및 여유 변수의 크기 (훈련 샘플의 손실과 유사). 그런 다음 능선 회귀의 경우와 마찬가지로 정규 유효성 검사 매개 변수를 조정하여 교차 유효성 검사 오류 (또는 일부 일회성 오류에 대한 일부 제한)를 최소화하여 과적 합을 피합니다.

따라서 SVM 훈련 세트를 간단하게 분류 할 수 있지만 일반적으로 정규화 및 커널 매개 변수를 잘못 선택한 경우에만 그렇게합니다. 어떤 커널 모델로도 좋은 결과를 얻으려면 적절한 커널을 선택한 다음 데이터의 과적 합 또는 과적 합을 피하기 위해 커널 및 정규화 매개 변수를 조정해야합니다.


고마워 Dikran. 매우 상세하고 도움이되었습니다. 나는 질문에 대한 답을 이해한다고 생각합니다. 하나의 빠른 후속 조치. SVM에 적합한 커널을 선택하는 방법은 무엇입니까? 정규화 / 커널 매개 변수와 유사합니까 (예 : 교차 검증)? 아니면 선택에 대한 이론적 근거가 있습니까? rbf 커널이 SVM을 보편적 근사치로 만들면 커널 선택이 조정해야 할 또 다른 매개 변수라고 생각하지만 확실하지는 않습니다. 당신이 아마 알 수 있듯이, 나는 이것에 상당히 익숙하지 않습니다.
tomas

커널을 선택하는 것은 종종 문제에 대한 전문 지식을 분류 자에 작성하는 좋은 방법입니다. 예를 들어 필기 문자 인식 시스템의 경우 이미지의 작은 회전 및 변환에 변하지 않는 커널을 사용하고 싶을 것입니다. 커널을 자동으로 선택하는 것은 교차 유효성 검사 (내가하는 것임) 또는 leave-one-out 오류 (SVM에 대해 효율적으로 수행 할 수 있음)에 의해 달성 될 수 있습니다. 그러나 데이터 세트가 작 으면 교차 유효성 검사 오류를 과도하게 맞추기 때문에 교차 유효성 검사를 통해 커널을 선택하는 것이 까다로울 수 있습니다.
Dikran Marsupial

많은 응용 프로그램의 경우 선형 또는 RBF 커널이 기본적으로 선택되는 것이 좋으며 (문제에 대한 전문 지식이없는 경우) 더 넓은 범위의 커널을 탐색하여 얻는 것이 상대적으로 적습니다.
Dikran Marsupial

1

대답은 선형 SVM을 사용하는지 아니면 커널 SVM을 사용하는지에 따라 다릅니다. linear SVM에서는 사용자가 제공 한 기능 만 사용하며 상호 작용을 고려하지 않습니다. 커널 SVM에서는 기본적으로 선택한 커널에 따라 다양한 기능을 사용합니다. 분리 초평면이있는 경우, 즉 이 는 기능이므로 교육 데이터를 완벽하게 수 있습니다. 일반적으로 기능을 지정하지 않지만 기능 과 관련된 커널 는 . 커널 힐버트 공간을 재현하십시오.sign(i=1Kβi(x)β0)βi,i{1,2,...K}KK(x1,x2)=i=1Kβi(x1)βi(x2)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.