SVM 그리드 검색에 정확도가 낮은 영역이 표시되어야합니까?


12

나는 12 가지 양성 훈련 세트 (12 가지의 다른 작용 기전으로 약물로 치료 된 암세포)를 가지고 있습니다. 이러한 긍정적 인 훈련 세트 각각에 대해, 실험에서 샘플링 된 동일한 크기의 음수 세트와 구별되도록 서포트 벡터 머신을 훈련시키고 싶습니다. 각 세트는 1000에서 6000 사이의 셀을 가지며 각 셀에는 476 개의 피처 (이미지 피처)가 있으며 각각 [0, 1]에 선형으로 스케일됩니다.

내가 사용 LIBSVM 과 가우스 RGB 커널을. 5 중 교차 검증을 사용하여 log₂ C ∈ [-5, 15] 및 log₂ ɣ ∈ [-15, 3]에 대한 그리드 검색을 수행했습니다. 결과는 다음과 같습니다.

그리드 검색 결과

12 가지 분류 문제 모두에 대해 높은 정확도를 제공하는 단일 매개 변수 집합이 없다는 것에 실망했습니다. 또한 그리드가 일반적으로 정확도가 낮은 영역으로 정확도가 낮다는 사실에 놀랐습니다. 이것은 검색 매개 변수 공간을 확장해야한다는 것을 의미합니까, 아니면 그리드 검색이 다른 것이 잘못되었음을 나타 냅니까?


2
다시 실망 : 당신은 왜, 각각의 문제는 동일한 매개 변수를 기대하지 않을 것이다 것입니다 당신이 하이퍼 파라미터 (로그 감마 및 C)에 대한 공유 좋은 값으로 문제를 기대?
공역 사전

@Conjugate Prior : 훈련 세트는 동일한 실험의 부분 집합이고 음성 훈련 세트는 동일한 모집단에서 샘플링되었으므로 동일한 RBF 커널 너비 ɣ가 효과적이기를 바랍니다. 긍정적 세트가 동일한 배경 (음수) 인구와 구별되기 때문에 이상적인 형벌 C도 비슷하기를 바랐습니다. 그렇지 않은 경우 SVM을 적용하기가 매우 어렵습니다. 예를 들어 부드러운 부스팅은 훨씬 쉽게 튜닝 할 수 있습니다.
Vebjorn Ljosa

아하. 그러나 그것은 물리적 의미에서 동일한 실험이지만 그럼에도 불구하고 통계적 의미에서 분리되고 다른 문제를 공격하고있는 것 같습니다. 특히 부정적인 경우는 각 치료에 대해 다시 샘플링됩니다.
공역 사전

1
BTW, 그리드 검색은 다소 비효율적이며 Nelder-Mead 심플 렉스 최적화 알고리즘은 경사 하강 최적화 방법과 마찬가지로 매우 효과적입니다. 그리드 검색은 간단하지만 "브 루트 포스"입니다.
Dikran Marsupial

@Vebjorn Ljosa (1 년 후), 최종 (C, 감마)에서 5 개의 값이 얼마나 많이 산란 되는가? 12 개의 플롯이 모두 동일하게 조정 되었습니까 (예 : 50 % .. 100 % 정확한 예측)? 감사합니다
데니스

답변:


9

하이퍼 파라미터에 대한 최적의 값은 학습 학습에 따라 달라 지므로 모든 문제에 대해 개별적으로 조정해야합니다.

단일 최적 값을 얻지 못하는 이유는 커널 매개 변수와 정규화 매개 변수가 모델의 복잡성을 제어하기 때문입니다. C가 작 으면 매끄러운 모델을 얻습니다. 커널이 넓은 경우처럼 기본 모델이 로컬이 아니기 때문에 매끄러운 모델을 얻게됩니다. 이것은 C와 커널 너비의 다른 조합이 유사한 성능을 가진 유사한 복잡한 모델로 이어진다는 것을 의미합니다 (따라서 많은 플롯에서 대각선 특징을 얻습니다).

최적은 훈련 세트의 특정 샘플링에 따라 다릅니다. 교차 유효성 검사 오류를 과도하게 맞추는 것이 가능하므로 교차 유효성 검사를 통해 하이퍼 파라미터를 선택하면 실제로 운이 좋지 않은 경우 성능이 저하 될 수 있습니다. 이에 대한 논의는 Cawley와 Talbot 을 참조하십시오 .

유사하게 좋은 값을 얻는 하이퍼 파라미터에 대해 광범위한 값의 값이 있다는 사실은 실제로 모델 선택에 지나치게 적합하지 않음을 시사하는 서포트 벡터 머신의 좋은 기능입니다. 최적의 값에서 날카로운 피크를 가졌다면 유한 한 데이터 세트를 사용하여 피크를 찾기가 어려워 피크가 실제로 어디에 있는지에 대한 신뢰할 수없는 표시를 제공하기 때문에 좋지 않습니다.


BTW 그리드 검색을 사용하여 모델 선택에서 과적 합에 관한 연구를 수행하고 있는데, 이는 내가 생각했던 것보다 훨씬 더 흥미 롭습니다. 하이퍼 파라미터가 적더라도 그리드를 최적화하면 모델 선택 기준을 과도하게 맞출 수 있습니다!
Dikran Marsupial

나는 이제 시뮬레이션 작업의 끝을 향해 가고있다. 나는 한두 달 안에 논문을 제출할 수 있기를 바란다.
Dikran Marsupial

논문이 완성되면 그 논문을 읽고 싶습니까? 그리드 검색 최적화에서 이상한 스파이크 등을 발견했습니다. 여기서 논의하는 것과 비슷합니다.
BGreene

모든 시뮬레이션 작업이 완료되었습니다. 지금은 종이를 모으고 있습니다. 모든 그리드를 저장 했으므로 당시에는 생각하지 않은 다른 질문을 다시 분석 할 수 있어야합니다.
Dikran Marsupial
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.