하이퍼 파라미터 튜닝 : 랜덤 검색 vs 베이지안 최적화


14

따라서 임의 검색이 그리드 검색보다 더 효과적이라는 것을 알고 있지만 가장 최근의 접근 방식은 베이 시안 최적화 (가우시안 프로세스 사용)입니다. 나는 둘 사이의 비교를 찾았지만 아무것도 찾지 못했습니다. 스탠포드의 cs231n에서는 무작위 검색 만 언급하지만 일을 단순하게 유지하고 싶을 수도 있습니다.

내 질문은 : 어떤 접근 방식이 일반적으로 더 좋으며, 대답이 "때로는 무작위 검색, 때로는 Bayesian"인 경우 언제 다른 방법을 선호해야합니까?


2
Google은 현재 딥 러닝 클라우드 서비스를 판매하고 있으며 베이지안 최적화를 통해 하이퍼 파라미터를 자동으로 조정하는 기능을 추진하고 있습니다. BO와 RS를 평가하고 BO가 약간 더 잘하는 것을 보여주는 몇 가지 논문이 있습니다. 내가 본 것에서 IMO는 diff는 실제보다 Kaggle 경쟁에서 더 관심이있는 것입니다.
JPJ

답변:


9

나는 여기의 대답이 데이터 과학의 모든 곳과 동일하다고 생각합니다. 그것은 데이터에 달려 있습니다 :-)

한 방법이 다른 방법보다 성능이 우수 할 수 있습니다 ( https://arimo.com/data-science/2016/bayesian-optimization-hyperparameter-tuning/ 사람들은 베이지안 초모 수 최적화를 비교하고 샌프란시스코 범죄 카글 도전에 대한 더 나은 결과를 달성합니다) 그러나 무작위 검색)에 대한 일반적인 규칙이 있는지 의심 스럽습니다. 사람들이 베이지안 최적화가 풍경에서 취하는 '경로'를 보여주는 곳 에서 멋진 GIF를 볼 수 있습니다 ( http://blog.revolutionanalytics.com/2016/06/bayesian-optimization-of-machine-learning-models.html ) 하이퍼 파라미터, 특히 임의 검색보다 성능이 우수한 것처럼 보이지 않습니다.

사람들이 베이지안 하이퍼 파라미터 최적화를 사용하는 이유는 충분히 많은 수의 실험으로 무작위 검색과 비교할 때 비슷한 결과를 얻기 위해 훈련 단계가 덜 필요하기 때문입니다.

한 문장으로 요약 :

* 훈련 시간이 중요한 경우 베이지안 하이퍼 파라미터 최적화를 사용하고 시간에 문제가 없으면 둘 중 하나를 선택하십시오. *

무작위 검색으로 동일한 결과를 얻을 수 있다면 보통 가우시안 프로세스로 베이지안을 구현하기에는 너무 게으르다 ... '몇 가지'데이터에 대해 Gradient Bossting 앙상블을 훈련시키기 때문에 시간이 문제가되지 않습니다 ...


5

더 현명한 결정을 내리기 때문에 베이지안 최적화가 더 좋습니다. 자세한 내용 은 신경망에 대한 하이퍼 파라미터 최적화를 참조하십시오 . 이 기사에는 두 가지 방법에 대한 장단점에 대한 정보와 그리드 검색 및 Tree-structured parzen Estimators와 같은 추가 기술이 있습니다. 신경망에 대한 다양한 방법의 장단점을 보여주기 위해 작성되었지만 주요 지식은 다른 머신 러닝 영역에서 일반화 할 수 있습니다.


1
난 그냥 첫 번째 문장에서, 베이지안 최적화가 더 나은 이유에 대한 실제 이유는 결정이되어 만들어지는 것이 아니라는 것을 지적하고 싶었 스마트 ,이 결정은 것에 대해입니다 전혀했다 .
Alexander Rossa

1

특히 베이지안 하이퍼 파라미터 최적화는 순차적 프로세스이므로 검색하거나 병렬로 수행 할 수있는 다른 방법보다 시간이 오래 걸릴 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.