SVM 최적 C 및 감마 매개 변수를 결정하기위한 검색 범위는 무엇입니까?


32

분류에 SVM을 사용하고 있으며 선형 및 RBF 커널에 대한 최적의 매개 변수를 결정하려고합니다. 선형 커널의 경우 교차 유효성 검사 매개 변수 선택을 사용하여 C를 결정하고 RBF 커널의 경우 그리드 검색을 사용하여 C와 감마를 결정합니다.

나는 20 개의 (숫자) 기능과 70 개의 교육 예제가 있으며 7 개의 클래스로 분류되어야합니다.

C 및 감마 매개 변수에 대한 최적의 값을 결정하기 위해 어떤 검색 범위를 사용해야합니까?

답변:


31

일부 포인터, 특히 5 페이지의 SVM 분류에 대한 실용 가이드를 확인하십시오 .

교차 검증을 사용하여 γ 에 대한 "그리드 검색"을 권장합니다 . 다양한 쌍의 ( C , γ ) 값이 시도되고 최고의 교차 검증 정확도를 가진 값이 선택됩니다. 우리의 기하 급수적으로 증가 시퀀스 시도하는 것을 발견 Cγ하는 것은 (예를 들어, 좋은 매개 변수를 식별 할 수있는 실제적인 방법이다 C = 2 - (5) , 2 - 3 , ... , 2 15 , γ = 2 - 15 , 2 - (13) ,Cγ(C,γ)Cγ ).C=25,23,,215;γ=215,213,,23

먼저 데이터를 정규화해야하며 가능한 경우 모양에서 더 많은 데이터를 수집하면 문제가 크게 결정되지 않을 수 있습니다.


피어 테스트를 수동으로 수행해야합니까? 그것을 달성하기위한 도서관이 없습니까?
x-rw

11

Chapelle과 Zien 이이 논문 의 섹션 2.3.2를 확인하십시오 . 그들은 RBF 커널의 에 대한 좋은 검색 범위 와 SVM에 대한 C 를 선택하는 좋은 휴리스틱을 가지고 있습니다 . 나는 인용한다σC

나머지 자유 매개 변수의 좋은 값을 결정하려면 (예 : CV) 올바른 규모로 검색하는 것이 중요합니다. 따라서 올바른 순서의 σ에 대한 기본값을 수정합니다 . A의 C - 클래스 문제를 우리가 사용하는 1 / C 분위수 페어 와이즈 거리의 D ρ 나는 J 의 기본으로 모든 데이터 포인트를 σ . C 의 기본값 은 피처 공간에서 의 경험적 분산 s 2 의 역수이며 s 2 = 1 로 계산할 수 있습니다.Cσc1/cDijρσCs2s2=1niKii1n2i,jKijn×nK

2kk{2,...,2}) of the default value as search range in a grid-search using cross-validation. That always worked very well for me.

Of course, we @ciri said, normalizing the data etc. is always a good idea.


I think there are several equal rbf kernel formulations. One with gamma and another with sigma, i.e. gamma = 1/2sigma^2. Does the gamma in the above heuristic correspond to gamma, sigma or sigma^2? I have found other descriptions of the same heurstic which are for gamma.
machinery

If you check the linked paper, it is 12σ2
fabee

@fabee Should peer testing be done manually? there is not a library to achieve it?
x-rw
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.