서포트 벡터 머신과 함께 감마 파라미터 사용

9

사용하는 경우 libsvm, 파라미터 커널 함수에 대한 파라미터이다. 기본값은 $\gamma$

γ = \frac{1}{number of features.}

$\gamma = \frac{1}{\text{number of features.}}$

그리드 검색과 같은 기존 방법 외에이 매개 변수 설정에 대한 이론적 지침이 있습니까?

— 사용자
소스

8

다음과 같은 이론적 지침을 제안합니다. Gaussian RBF 커널을 사용하는 경우 분리 표면은 각지지 벡터를 중심으로 한 종 모양 표면의 조합을 기반으로합니다. 각 종 모양 표면의 너비는 반비례 합니다. 이 너비가 데이터의 최소 페어 단위 거리보다 작 으면 본질적으로 과적 합입니다. 이 너비가 데이터의 최대 쌍 단위 거리보다 크면 모든 점이 하나의 클래스에 속하며 성능도 좋지 않습니다. 따라서 최적의 너비는이 두 극단 사이에 있어야합니다. $\gamma$

— 사자 별자리
소스

pair-wise distance for your data= 스케일링 후 간단한 유클리드 거리?

— ihadanny

5

아니요, 본질적으로 데이터에 따라 다릅니다. 그리드 검색 (로그 변환 된 하이퍼 파라미터를 통해)은 튜닝 할 하이퍼 파라미터가 적지 만 그리드 해상도를 너무 세밀하게 조정하지 않거나 튜닝에 너무 적합 할 경우 매우 좋은 방법입니다. 표준. 더 많은 수의 커널 매개 변수와 관련된 문제의 경우 Nelder-Mead 심플 렉스 방법이 잘 작동합니다.

— 디크 란 유대류
소스

Dikran, 답변 주셔서 감사합니다. "데이터 종속적"에 대해 더 자세히 설명 할 수 있습니까? r과 데이터 집합의 관계는 무엇입니까? 다시 말하면, 데이터 세트가 주어지면 이러한 데이터를 기반으로 r을 정의하는 방법이 있습니까?

— user3269

1

본질적으로 "데이터 종속적"은 최상의 설정이 데이터의 특정 구조에 따라 달라지며 일반적으로 교차 유효성 검사 오류를 최소화하는 것보다 더 좋은 방법은 없습니다. 커널 방법은 실제로 커널 학습 방법에 대한 이론적 분석과 관련이있을 수 있지만 불행히도 수학적으로 매우 어렵습니다.

— Dikran Marsupial