언급 한 처음 두 알고리즘 (Nelder-Mead 및 Simulated Annealing)은 일반적으로 최적화 분야에서 거의 쓸모없는 것으로 간주됩니다. 더 신뢰할 수 있고 비용이 덜 드는 대안이 많이 있기 때문입니다. 유전자 알고리즘은 광범위한 범위를 포괄하며이 중 일부는 합리적 일 수 있습니다.
그러나 광범위한 파생 파생 최적화 (DFO) 알고리즘에는 최근 수십 년 동안 활발한 연구 영역이 있었기 때문에 이러한 "클래식"보다 훨씬 우수한 알고리즘이 많이 있습니다. 그렇다면 이러한 새로운 접근법 중 일부가 딥 러닝에 합리적일까요?
최신 기술을 비교 한 비교적 최근의 논문은 다음과 같습니다.
Rios, LM, & Sahinidis, NV (2013) 파생없는 최적화 : 알고리즘 검토 및 소프트웨어 구현 비교. 글로벌 최적화 저널.
이 논문은 최근 기술에 대한 많은 흥미로운 통찰력을 가진 좋은 논문입니다. 예를 들어, 결과는 최상의 로컬 최적화 프로그램이 서로 다른 형식의 순차적 이차 프로그래밍 (SQP)을 사용하여 모두 "모델 기반"임을 분명히 보여줍니다 .
그러나 초록에서 언급했듯이 "우리는 이러한 모든 솔버가 우수한 솔루션을 얻는 능력이 문제의 크기가 커짐에 따라 줄어든다는 것을 알게되었습니다." 숫자에 대한 아이디어를 제공하기 위해 모든 문제에 대해 솔버는 2,500 개의 기능 평가 예산을 제공 받았으며 문제 크기는 최적화하기 위해 최대 ~ 300 개의 매개 변수였습니다. O [10] 매개 변수를 넘어서서, 이러한 최적화 프로그램 중 아주 적은 수의 성능이 매우 우수했으며, 심지어 가장 좋은 것조차도 문제의 크기가 증가함에 따라 성능이 눈에 띄게 감소했습니다.
따라서 차원이 매우 큰 문제의 경우 DFO 알고리즘은 파생 기반 알고리즘과 경쟁하지 않습니다. PDE (부분 미분 방정식) 기반 최적화 는 일부 관점을 제공하기 위해 차원 문제가 매우 큰 또 다른 영역입니다 (예 : 큰 3D 유한 요소 격자의 각 셀에 대한 여러 매개 변수). 이 영역에서 " 인접한 방법 "은 가장 많이 사용되는 방법 중 하나입니다. 또한 순방향 모델 코드의 자동 차별화를 기반으로하는 기울기 하강 최적화 프로그램입니다.
고차원의 DFO 옵티 마이저에 가장 가까운 것은 아마도 Ensemble Kalman Filter 일 것입니다. 날씨 모델과 같은 복잡한 PDE 시뮬레이션으로 데이터를 동화하는 데 사용됩니다. 흥미롭게도, 이것은 본질적으로 SQP 접근법이지만 베이지안-가우시안 해석을 가지고 있습니다 (따라서 2 차 모형은 양의 명확한 모델입니다. 즉, 안장 점이 없습니다). 그러나 이러한 응용 프로그램의 매개 변수 또는 관찰 수는 딥 러닝에서 볼 수있는 것과 비슷하다고 생각하지 않습니다.
참고 사항 (로컬 최소값) : 딥 러닝에 대해 읽은 내용 중 작은 부분부터는 로컬 최소값보다 안장 점이 있다고 생각합니다 . 이는 고차원 NN- 파라미터 공간에 가장 문제가됩니다.
예를 들어, Nature 의 최근 리뷰 에 따르면 "최근의 이론적 및 경험적 결과는 로컬 최소값이 일반적으로 심각한 문제가 아니라는 것을 강력하게 시사합니다. 대신, 경사도가 0 인 여러 안장 점이 조합되어 있습니다. 표면은 대부분의 치수에서 위로 구부러지고 나머지는 아래로 구부러집니다. "
관련 우려는 로컬 최적화와 글로벌 최적화에 관한 것입니다 (예 : 이 질문 은 의견에서 지적). 딥 러닝은하지 않지만 경험상 과적 합은 분명히 유효한 문제입니다. 제 생각에는 전역 최적화 방법이 "자연적인"데이터에 크게 의존하지 않는 엔지니어링 설계 문제에 가장 적합 합니다. 데이터 동화 문제에서 현재의 모든 최소값은 새로운 데이터 추가시 쉽게 변경 될 수 있습니다 (캐비티 : 내 경험 은 데이터가 일반적으로 모델 용량에 비해 "희소"한 지구 과학 문제에 집중되어 있습니다).
흥미로운 관점은 아마도
O. Bousquet & L. Bottou (2008) 대규모 학습의 균형. NIPS.
왜 그리고 언제 대략적인 최적화가 바람직한 지에 대한 반 이론적 논증을 제공합니다.
참고 사항 (메타 최적화) : 그래디언트 기반 기술이 네트워크 학습에 지배적 인 것처럼 보이지만 메타 최적화 작업과 관련하여 DFO의 역할이있을 수 있습니다.
한 가지 예는 하이퍼 파라미터 튜닝입니다. 흥미롭게도 Rios & Sahinidis 의 성공적인 모델 기반 DFO 옵티마이 저는 본질적으로 실험 디자인 / 응답 표면 문제를 해결하는 것으로 볼 수 있습니다 .
다른 예로는 계층 설정 (예 : 숫자, 유형, 순서, 노드 / 계층) 측면에서 아키텍처를 설계 할 수 있습니다. 이 이산 최적화 문맥에서 유전자형 알고리즘이 더 적합 할 수있다. 여기서는 이러한 요소 (예 : 완전히 연결된 레이어, 회선 레이어 등)에 의해 연결성 이 암시 적으로 결정 되는 경우를 생각하고 있습니다. 즉, 연결은 명시 적으로 메타 최적화 . (연결 강도는 정규화 및 / 또는 ReLU 활성화에 의해 희소성이 향상 될 수있는 훈련에 해당 합니다. 그러나 이러한 선택 은 메타 최적화 될 수 있습니다.)O[N2]notL1