서포트 벡터 머신을위한 선형 커널과 비선형 커널?


45

서포트 벡터 머신을 사용할 때 RBF와 같은 선형 커널과 비선형 커널을 선택하는 지침이 있습니까? 비선형 커널이 기능 수가 많으면 성능이 좋지 않은 경향이 있다고 들었습니다. 이 문제에 대한 언급이 있습니까?


1
내 지혜로, 이것은 당면한 문제에 기반을두고 있으며 실제로 그러한 규칙을 사용하는 것은 위험합니다.
htrahdis

답변:


66

일반적으로 결정은 선형 또는 RBF (일명 가우시안) 커널을 사용할지 여부입니다. 고려해야 할 두 가지 주요 요소가 있습니다.

  1. 선형 커널에 대한 최적화 문제를 해결하는 것이 훨씬 빠릅니다 (예 : LIBLINEAR 참조).
  2. 일반적으로 가능한 최고의 예측 성능은 비선형 커널 (또는 적어도 선형 커널보다 우수)에 좋습니다.

것을 보여 됐어요 선형 커널 RBF의 퇴화 버전입니다 따라서 선형 커널이 결코 더 정확한 적절히 조정 RBF 커널보다 없습니다. 내가 연결 한 논문에서 초록 인용하기 :

분석은 가우시안 커널을 사용하여 모델을 완벽하게 선택했다면 선형 SVM을 고려할 필요가 없음을 나타냅니다.

기본적인 경험 규칙은 벡터 분류 (부록 C) 를 지원하기위한 NTU의 실용 가이드 에 간략하게 설명되어 있습니다.

지형지 물의 수가 많으면 데이터를 더 높은 차원 공간에 매핑 할 필요가 없습니다. 즉, 비선형 매핑은 성능을 향상시키지 않습니다. 선형 커널을 사용하면 충분하며 매개 변수 C 만 검색합니다.

당신의 결론은 다소 맞지만 논쟁의 여지가 있습니다. 실제로, 선형 커널은 피처 수가 많을 때 (예 : 더 높은 차원 피처 공간에 매핑 할 필요가없는 경우) 매우 잘 수행되는 경향이 있습니다. 일반적인 예로는 입력 공간에 수천 개의 차원이있는 문서 분류가 있습니다.

이 경우 비선형 커널이 반드시 선형 커널보다 훨씬 정확하지는 않습니다. 이것은 기본적으로 비선형 커널이 호소력을 잃는다는 것을 의미합니다. 예상 성능을 거의 또는 전혀 얻지 않고 훈련하려면 더 많은 리소스가 필요하므로 왜 귀찮게합니까?

TL; DR

훈련하기가 더 빠르기 때문에 항상 선형을 먼저 시도하십시오 (AND 테스트). 정확성이 충분하면 작업을 잘 수행하고 다음 문제로 넘어가십시오. 그렇지 않은 경우 비선형 커널을 사용해보십시오.


1
커널 트릭에 대한 설명이 있습니다 : stats.stackexchange.com/questions/131138/…

37

앤드류 응 (Andrew Ng)은 14:46부터이 비디오 에서 훌륭한 경험 법을 설명 하지만 전체 비디오는 가치가 있습니다.

키 포인트

  • 피처 수가 관측치 수보다 큰 경우 선형 커널을 사용하십시오.
  • 관측치 수가 피처 수보다 큰 경우 가우스 커널을 사용하십시오.
  • 가우스 커널을 사용할 때 관측치 수가 50,000보다 큰 경우 문제가 될 수 있습니다. 따라서 선형 커널을 사용하려고 할 수 있습니다.

동의 ................
datmannz

1
링크가 죽었다 : 나는 이것이 동일한 비디오라고 생각한다 : youtube.com/watch?v=hDh7jmEGoY0
ihebiheb
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.