Adam Optimizer가 하이퍼 매개 변수의 값에 대해 강력한 것으로 간주되는 이유는 무엇입니까?


24

저는 Deep Learning 의 Adam 최적화 프로그램에 대해 읽었으며 Bengio, Goodfellow 및 Courville 의 새 책 Deep Learning 에서 다음 문장 을 보았습니다.

Adam은 일반적으로 학습 매개 변수를 제안 된 기본값에서 변경해야하지만 하이퍼 매개 변수를 선택하는 데 상당히 강력한 것으로 간주됩니다.

이것이 사실이라면 하이퍼 파라미터 검색은 딥 러닝 시스템의 통계 성능에서 (최소한의 경험으로는) 중요 할 수 있기 때문에 큰 문제입니다. 따라서 내 질문은 왜 Adam Robust가 중요한 매개 변수에 해당합니까? 특히 및 ?β1β2

나는 Adam 논문을 읽었으며 왜 그 매개 변수와 함께 작동하는지 또는 왜 강력한 지에 대한 설명을 제공하지 않습니다. 그들은 다른 곳에 그것을 정당화합니까?

또한 논문을 읽으면서 만 2 및 만 3 에서 매우 작은 곳에서 시도한 하이퍼 매개 변수의 수는 2x3 하이퍼 매개 변수에서만 작동하는 경우 철저한 실험적 연구가 될 수 있습니다. ?β1β2


1
주장을 한 책의 저자에게 이메일을 보내십시오. 주장의 근거가 무엇인지 물어보십시오.
Mark L. Stone

1
@ MarkL.Stone 그는 초록이라고 말했기 때문에 단지 말했다. 설득력있는 주장은 거의 없습니다. 다음 번에는 실제 논문의 저자에게 전자 메일을 보내겠습니다.
Charlie Parker

7
그리고 자기 홍보는 사실이됩니다.
Mark L. Stone

그의 방어에서 @ MarkL.Stone, 그는 제대로 대답하기 위해 바빴을 수도 있고 나는 3 명의 저자 중 1 명에게 연락했습니다. 어쩌면 나는 다른 사람들에게 연락 할 수는 있지만 주어진 교수가 적어도 (적어도) 교수인지 대답 할 지 확신 할 수 없습니다. DL의 과대 광고와 함께 그는 매일 300 개의 이메일을받습니다.
Charlie Parker

7
이 책이 나왔으므로 Adam 저자는 알고리즘이 얼마나 훌륭한 지 확인했습니다. '89 베이 지역 지진을 상기시킵니다. 뉴스 라디오 방송국은 고속도로 붕괴로 사망자 수를 확인하지 않은 상태로보고했다. 그런 다음 총재에게 전화를 걸어 사망자 수를 확인할 수 있는지 물었습니다. 그는 그것이들은 것이라고 말했습니다. 라디오 방송국은 이제 총재로부터 확인을 받았다고보고했다. 주지사는 라디오 방송국에서 그 소식을 들었다는 것을 의미했습니다. 따라서 순환 확인입니다.
Mark L. Stone

답변:


7

주장과 관련된 증거와 관련하여, 나는 주장을 뒷받침하는 유일한 증거 는 그들의 논문 에서 그림 4에서 찾을 수 있다고 생각합니다 . , 및 대한 다양한 값 범위에서 최종 결과를 보여줍니다 .β1β2α

개인적으로, 나는 그들의 주장이 설득력이 없다. 특히 그들이 다양한 문제에 걸쳐 결과를 제시하지 않기 때문이다. 그렇게 말한다면, 나는 문제의 다양한 사용 ADAM이 있습니다 것이며, 내 개인 발견은 기본 값이다 및 음주 와 하구의 좋은 거래하지만, 놀라 울 정도로 안정적인 것 같다 필요합니다.β1β2 α


5

Adam은 매개 변수별로 학습 속도 자체를 배웁니다. 및 매개 변수 는 학습 속도를 직접 정의하지 않고 학습 된 학습 속도가 쇠퇴하는 시간 척도 만 정의합니다. 그들이 정말로 빨리 쇠퇴한다면, 학습 속도는 모든 곳에서 뛸 것입니다. 느리게 쇠퇴하면 학습률을 배우기까지 오랜 시간이 걸립니다. 그러나 모든 경우에 학습 속도는 매개 변수 별 기울기 및 매개 변수 별 제곱 기울기의 이동 추정에 따라 자동으로 결정됩니다.β1β2

이것은 스톡 바닐라 스토캐스틱 그라디언트 디센트와는 대조적입니다.

  • 학습 속도는 매개 변수가 아니지만 모든 매개 변수에 걸쳐 단일하게 적용되는 단일 글로벌 학습 속도가 있습니다.
    • (그런데, 이것이 네트에 전송되기 전에 데이터가 종종 희게되고 정규화되는 이유 중 하나는 이상적인 매개 변수 당 가중치를 유사하게 유지하려고 시도하는 것입니다)
  • 제공된 학습 속도는 사용 된 정확한 학습 속도이며 시간이 지나도 적용되지 않습니다

Adam은 적응 형 학습률을 갖춘 유일한 최적화 프로그램은 아닙니다. Adam 논문 자체에서 언급했듯이, Adagrad 및 Rmsprop와 관련이 있으며 하이퍼 파라미터에도 매우 민감합니다. 특히 Rmsprop는 매우 훌륭하게 작동합니다.

그러나 아담은 일반적으로 최고입니다. 거의 예외없이 Adam은 원하는 것을 할 것입니다 :)

Adam이 작동하지 않는 상당히 병리적인 경우가 있습니다. 이 경우 Rmsprop는 탁월한 대기 옵션입니다. 그러나 일반적으로 비 병리학 적 사례의 경우 Adam은 매우 잘 작동합니다.


1
나는 그것을 얻지 못한다. 왜 Adam은 값에 견고하다 . 그것을 뒷받침 할 연구가없는 것 같습니다. 내가 말할 수있는 한 사람들은 "지혜"인 것 같습니다. β1,β2
Charlie Parker

그렇습니다. '이유에 대해 더 깊이 연구 할 기회가 있습니까?', 아마도 ... 어쩌면.
휴 퍼킨스

2
이것은 "더 깊은 질문"이 아닙니다. 이것이 논문의 가장 중요한 부분 중 하나 인 것 같습니다. 요점은 그것이 "자체"에 의해 일을하지만 마 법적으로 강건한 다른 하이퍼 파라미터가 있다는 것입니다. 그게 내가 가진 문제입니다. 아담의 요점을 오해하지 않으면 논문의 핵심과 관련이있는 것 같습니다.
Charlie Parker

"아담이 작동하지 않는 상당히 병리학적인 사례가 있습니다. <-여기에 참조가 있습니까?
mimoralea

0

ADAM 공식을 살펴보면 매우 많은 수의 배치 반복 (예 : ~ 400k) 후에 원래 오류 기반의 그라디언트 자체의 크기가 ~ 수행 단계에서 실제 역할을 수행하지 않는 것으로 보입니다. 관련 부호의 학습 속도 구성 매개 변수.
아마도 ADAM은 첫 반복 / 에포크 동안 단순한 SGD보다 가중치 적용을 더 잘 제어하지만 앞으로 업데이트는 다소 순진한 것으로 축소 된 것으로 보입니다 (?). 왜 이것이 실제로 바람직한 지 그리고 / 또는 잘 작동하는 이유에 대한 직관을 제공 할 수 있습니까?


실제로 오류 기반 그라디언트 크기 자체는 시작부터 실제 역할을하지 않는 것처럼 보입니다. 문제는 왜 그러한 정규화가 잘 작동하고 있으며 DL 및 기타 일반적인 학습 모델을 안내하는 GD 직관과 관련하여 무엇을 의미합니까?
대니 로젠
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.