하이퍼 파라미터 튜닝을위한 베이지안 최적화에 비해 입자 떼 최적화의 장점은 무엇입니까?

ML 하이퍼 파라미터를 튜닝하기위한 베이지안 최적화 (1)에 대한 실질적인 현대 연구가 있습니다 . 여기서의 동기 부여는 모델 교육에 시간이 많이 걸리기 때문에 약간의 노력이 필요하기 때문에 (객관적인 함수 호출이 비싸므로 더 적은 것을 만드는 것이 좋습니다) 어떤 정보를 선택해야하는지에 대한 최소한의 데이터 포인트가 필요하다는 것입니다. 내가 작업 한 큰 SVM 문제는 완료하는 데 몇 분에서 몇 시간이 걸릴 수 있습니다.

반면, Optunity 는 동일한 작업을 처리하기위한 입자 무리 구현입니다. 나는 PSO에 압도적으로 익숙하지는 않지만 하이퍼 파라미터 표면을 평가하기 위해 더 많은 시험 포인트를 요구한다는 의미에서 객관적인 기능 평가가 덜 효율적 인 것 같습니다.

기계 학습 컨텍스트에서 PSO를 BO보다 선호하는 주요 세부 정보가 누락 되었습니까? 아니면 하이퍼 파라미터 튜닝 작업에 대해 항상 본질적으로 상황에 맞는 것입니까?

(1) Shahriari et al., "사람을 루프에서 꺼내기 : 베이지안 최적화 검토".

hyperparameter bayesian-optimization optunity

— Sycorax는 Reinstate Monica를 말합니다
소스

그라디언트가 필요하지 않습니다. 불연속으로 작동합니다. 적당히 효율적입니다. 여러 치수를 처리합니다. 소음을 잘 처리합니다. 추정기의 견고성이 내장되어 있습니다.

— EngrStudent-복직 모니카

@EngrStudent BO 는 적어도 내 계산에서 적은 수의 함수 평가가 필요하기 때문에 BO가 더 효율적으로 나타나는 것을 제외하고 BO에 관한 모든 것을 말할 수 있습니다 . 나는 일반적으로 PSO에 대해 묻지 않고 BO에 비해 그 장점에 대해 묻습니다.

— Sycorax는 Reinstate Monica가

주제에 대한 충분한 교육을받지 못했지만 Bayesian Optimization은 다중 모달 문제가 많은 가장 효율적인 옵티 마이저와 같은 운명을 겪어야한다고 생각합니다 (머신 러닝 문제의 95 % 참조). 지구 공간을 "감시"하지 않고 가장 가까운 지역 최소. 파티클 스웜은 로컬이 아닌 최소값을 찾는 것이 더 좋을 것 같습니다.

— Cliff AB

파티에 늦게 도착한 것에 대한 사과, 어떻게 Optunity에 대한 질문을 오랫동안 간과했는지 잘 모르겠습니다! :-)

— Marc Claesen 2016 년

@MarcClaesen 인정해야합니다, 당신이 어떤 시점에서 답장을 할 수 있기를 바랍니다. 늦었 든 말든, 우리는 당신이 도착한 것을 기쁘게 생각합니다.

— Sycorax는 Reinstate Monica

답변:

Optunity의 수석 개발자로서 2 센트를 추가하겠습니다.

실제 문제에서 Optunity와 가장 인기있는 Bayesian 솔버 (예 : hyperopt, SMAC, bayesopt)를 비교 한 광범위한 벤치 마크를 수행했으며 그 결과 PSO가 실제로 많은 실제 사례에서 그리 효율적이지 않은 것으로 나타났습니다. 다양한 데이터 세트에서 SVM 분류기를 조정하는 벤치 마크에서 Optunity는 실제로 hyperopt 및 SMAC보다 효율적이지만 BayesOpt보다 약간 덜 효율적입니다. 나는 여기에 결과를 공유하고 싶지만 Optunity가 JMLR에 마침내 출판 될 때까지 기다릴 것입니다 (1 년 이상 검토 중이므로 숨을 참지 마십시오 ...).

알다시피, 효율성 향상은 베이지안 최적화에 일반적으로 사용되는 판매 지점이지만 실제로는 기본 대리 모델의 가정이 사소한 경우에만 물을 보유합니다. 우리의 실험에서 Optunity의 매우 간단한 PSO 솔버는 종종 함수 평가 수 측면에서 복잡한 베이지안 접근법과 경쟁합니다. 베이지안 솔버는 우수한 선행 조건이 제공 될 때 매우 잘 작동하지만 정보가없는 선행으로는 효율성 측면에서 PSO와 같은 메타 휴리스틱 방법에 비해 구조적 이점이 거의 없습니다.

PSO의 큰 판매 포인트는 그것이 당연히 평행하다는 사실입니다. 베이지안 최적화는 본질적으로 순차적 인 특성으로 인해 병렬화가 어려운 경우가 많습니다 (hyperopt의 구현이 유일한 예외 임). 표준이되고있는 분배 기회가 주어짐에 따라 Optunity는 벽시계 시간을 앞당겨 우수한 솔루션을 얻는 데 빠르게 앞장서고 있습니다.

Optunity와 대부분의 다른 전용 하이퍼 파라미터 최적화 라이브러리의 또 다른 주요 차이점은 대상 독자입니다. Optunity는 인터페이스가 가장 단순하고 비 기계 학습 전문가를 대상으로하는 반면, 대부분의 다른 라이브러리는 효과적으로 사용하기 위해 베이지안 최적화에 대한 이해가 필요합니다 (즉, 전문가를 대상으로 함).

우리가 라이브러리를 만든 이유는 전용 하이퍼 파라미터 최적화 방법이 존재하지만 실제로 채택이 부족하기 때문입니다. 대부분의 사람들은 여전히 수동으로 조정하거나 그리드 또는 임의 검색과 같은 순진한 접근 방식을 통해 전혀 튜닝하지 않습니다. 우리가 생각하기에 이것이 중요한 이유는 Optunity를 개발하기 전에 기존 라이브러리가 설치, 문서화, API 측면에서 사용하기가 너무 어려워 단일 환경으로 제한되기 때문입니다.

— 마크 클라 센
소스

우리가 얻을 수있는대로 답변을 받았습니다! 궁금합니다 : PSO 솔버가 Bayesian Optimization 접근 방식과 경쟁력이 있다고 말합니다. PSO 실행이 순차적으로 Bayseian Optimization 실행 보다 빠르다는 것을 알 수 있습니까? 의미를 가지려고 노력하지는 않지만 이해해야 할 중요한 차이점입니다.

— Cliff AB

둘 다 순차적으로 실행됩니다. 실험 (SVM 조정)에서 PSO 및 베이지안 최적화의 효율성은 기능 평가 수 측면에서 경쟁력이 있습니다. 우리는 분산 설정에서 벽시계 시간 측면에서 효율성을 비교하지 않았습니다. 많은 베이지안 최적화 방법으로는 그렇게 할 수 없기 때문에 약간 저렴합니다.

— Marc Claesen

그 흥미 롭군요. 왜 그런지에 대한 생각? 불안정한 하이퍼 파라미터 표면?

— Cliff AB

몇 가지 이유가 있다고 생각합니다. 하나의 경우, 하이퍼 파라미터 표면은 많은 국소 최적화 (예를 들어, 유한 샘플 효과, 교차 검증 폴드, 일부 학습 접근법에서 고유 한 무작위성으로 인해)를 갖는다. 둘째, 베이지안 최적화는 정확한 대리 목적 함수를 작성하는 데 의존합니다. 이는 목표 함수가 여러 번 샘플링 될 때까지 쉽지 않은 일입니다. 베이지안 최적화는 수렴 속도가 빨라지기까지 시간이 걸립니다 (종종 생략 된 세부 사항). 그때까지 PSO와 같은 메타 휴리스틱 방법은 로컬 검색 단계에도 도달했습니다. PSO는 지역 검색에 매우 적합합니다.

— Marc Claesen

탁월한 답변을 얻으려면 +1하십시오. 필자는이 시점에서 대부분 허영 프로젝트라는 것을 인정해야하는 자체 BO 소프트웨어를 만들었으므로 BO 절차가 어떻게 작동하는지 이해합니다. 하이퍼 파라미터 튜닝 세계에서 다른 일이 벌어지고있는 것을 긁을 수있게되어 기쁩니다. 나의 오래된 순진한 튜닝 프로그램 중 하나가 이제 일주일 동안 모델을 튜닝하지 않았기 때문에 순진한 접근 방식에 대한 당신의 발언은 실제로 집에 닿습니다 ... 귀하의 기여에 감사드립니다. 내가 이것을 요약하면 더 많은 질문.

— Sycorax는 Reinstate Monica

대답은 문제에 따라 다르며 추가 컨텍스트없이 제공 될 수 없습니다. 일반적으로 대답은 다음과 같습니다. 베이지안 최적화 (Bayesian Optimization)는 계산 예산이 변수 수의 10x-100x에 이르는 저 차원 문제에 더 적합합니다. PSO는 훨씬 더 큰 예산에 매우 효율적일 수 있지만 틈새 시장에서는 최신 기술이 아닙니다.

— 인디 솔버
소스

의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .

— gung-복직 모니카