확률 적 경사 하강을 누가 발명 했습니까?

Gradient descent 와 Stochastic gradient descent 의 역사를 이해하려고 합니다 . 그라데이션 하강에 발명 된 코시 1847에 부어 제너럴 메도 라 해상도 데 Systèmes의 디부 방정식 simultanées . pp. 536–538 자세한 내용은 여기를 참조 하십시오 .

그 이후로 기울기 하강 법은 계속 개발되어 왔으며 나는 그들의 역사에 익숙하지 않습니다. 특히 저는 확률 적 경사 하강의 발명에 관심이 있습니다.

학술 논문에서 환영 이상으로 사용될 수있는 참조.

— 달
소스

머신 러닝 전에 SGD에 대해 배웠

— 으므로이

Cauchy는 기계 학습 전에 GD를 발명했기 때문에 SGC가 이전에 발명되었다는 사실에 놀라지 않을 것입니다.

— DaL

Kiefer-Wolfowitz Stochastic Approximation en.wikipedia.org/wiki/Stochastic_approximation 은 그라디언트를 직접 "시뮬레이션"하지 않는 한 대부분의 방법입니다.

— 마크 L. 스톤

ML의 "Stochastic Gradient Descent"는 볼록 최적화의 "Stochastic Subgradient Method"와 동일합니다. 그리고 하급 방법은 모스크바의 소련에서 1960-1970 년 동안 발견되었습니다. 아마 미국에서도. 나는 Boris Polyak (헤비 볼 방식의 저자)이 1970 년에 자신과 모든 사람들이 하급 법에 대해 생각하기 시작한 비디오를 보았다. ( youtube.com/watch?v=2PcidcPxvyk&t=1963s ).

— bruziuz

답변:

확률 적 그라디언트 디센트는 Robbins와 Monro의 논문 인 Stochastic Approximation Method 에서 처음 설명한 Stochastic Approximation이 뒤 따릅니다 . 키퍼와 울포위츠는 그 후 그들의 회귀 함수의 최대치에 대한 확률 적 추정을 발표했다.주석에서 Mark Stone이 지적한 스토캐스틱 근사 (Stochastic Approximation)의 ML 변형에 대해 잘 알고있는 사람들에게 더 잘 알 수 있습니다. 60 년대에는 그 맥락에서 Dvoretzky, Powell, Blum의 많은 연구 결과가 나타났습니다. Robbins 및 Monro 방법에서 Kiefer Wolfowitz 방법으로 전환하는 것은 상대적으로 약간의 도약이며, 문제를 재구성하여 확률 적 그라디언트 디센트 (회귀 문제의 경우)에 도달하는 것입니다. 위의 논문은 Nocedal, Bottou 및 Curtis 의이 검토 논문에서 언급 한 바와 같이 확률 적 그라디언트 디센트 (Stochastic Gradient Descent)의 선행 물로 널리 인용되며 , 이는 머신 러닝 관점에서 간단한 역사적 관점을 제공합니다.

나는 그들의 책 Stochastic Approximation and Recursive Algorithms and Applications 에서 Kushner와 Yin이 그 개념이 40 년대로 거슬러 올라가는 제어 이론에서 사용되었다고 제안하지만, 그들이 인용을 받았는지 아니면 그것이 인용되었는지를 기억하지 못한다 일화도 아니고 나는 이것을 확인하기 위해 그들의 책에 접근 할 수 없다.

허버트 로빈스와 서튼 몬로 확률 론적 근사법 수학적 통계 연대, Vol. 22, No. 3. (Sep., 1951), pp. 400-407.

J. 키퍼와 J. 울포위츠 회귀 기능의 최대의 확률 추정 앤. 수학. 통계 학자. 23 권 3 호 (1952), 462-466

대규모 기계 학습을위한 Leon Bottou 및 Frank E. Curtis 및 Jorge Nocedal 최적화 방법 , 기술 보고서, arXiv : 1606.04838

— 데이비드 코 자크
소스

정확한 참조를 줄 수 있습니까? 그리고 SGD의 발명을 위해, 그것은 40 년대에있는 것처럼 보이지만 누구와 어디에서 명확하지 않습니까?

— DaL

확실히 그것은 확률 론적 근사 알고리즘 과 함께 1951 년 Robbins와 Monro로 널리 알려져 있습니다 . 나는 40 년대의 제어 이론 문헌에 비슷한 내용이 있다고 들었습니다. Nocedal et al. 내가 연결 한 참조.

— David Kozak

그래서 우리의 주요 후보는 H. Robbins와 S. Monro입니다. 확률 적 근사법. 수학적 통계, 22 (3)의 실록 : 400-407, 1951에 Nocedal, Bottou 및 커티스에서 작성된 pdfs.semanticscholar.org/34dd/...

— DAL

그래서 그것은 SGD의 기원으로 불려지지만 요약 (실제로 오늘날의 용어에서는 요약)에서 "M (x)는 x의 모노톤 함수라고 가정하지만 실험자에게는 이해가되지 않습니다. "는 주어진 상수 인 식 m (x) = a의 해 x = 0을 구하는 것이 바람직하다." M (x)를 알 수 없으면이를 도출 할 수 없습니다. 어쩌면 또 다른 고대 조상일까요?

— DaL

어떤 의미에서 동의했습니다. 키퍼 울포위츠 (Kiefer Wolfowitz)는이 분석을 사용하여 오늘날 우리가 볼 수있는 형태로 더 잘 인식되는 논문을 만들었습니다. 위에 언급 한대로 Mark Stone. 해당 논문은 projecteuclid.org/download/pdf_1/euclid.aoms/1177729392 에서 찾을 수 있습니다 .

— David Kozak

보다

Rosenblatt F. 퍼셉트론 : 뇌의 정보 저장 및 구성을위한 확률 모델. 심리적 검토. 1958 년 11 월; 65 (6) : 386.

SGD가 최적화 문헌에서 이보다 먼저 발명되었는지는 확실하지 않지만 아마도 여기에서 그는 퍼셉트론을 훈련시키기 위해 SGD의 적용을 설명하고 있다고 생각합니다.

시스템이 포지티브 강화 상태 인 경우 "on"응답의 소스 세트에있는 모든 활성 A- 장치의 값에 포지티브 AV가 추가되고 소스의 활성 유닛에 네거티브 AV가 추가됩니다. - "off"응답 세트.

그는 이것을 "두 가지 유형의 강화"라고 부릅니다.

그는 또한이 "2가 시스템"에 대해 더 많은 책을 참조한다.

Rosenblatt F. 퍼셉트론 :인지 시스템에서의 통계적 분리 성 이론 (Project Para). 코넬 항공 연구소; 1958.

— 사용자 0
소스

좋은 발걸음, 감사합니다! citeseerx.ist.psu.edu/viewdoc/에서 온라인으로 첫 번째 참조를 찾았 습니다… 그러나 알고리즘을보다 명확하고 공식적으로 찾을 것으로 기대합니다.

— DaL

최적화에 대한 설명은 +1입니다. 머신 러닝에서 최적화를 수행하는 데 사용되었고 최적화가 ML보다 40 년에서 50 년 전에 큰 발전을 이룩한 이후로 컴퓨터는 거의 같은시기에 그림에 들어 섰습니다. 이는 좋은 리드 인 것 같습니다.

— Wayne

이 인용문이 SGD를 설명한다고 말하는 이유를 이해하지 못합니다.

— amoeba는 Reinstate Monica가

@amoeba 잘만되면 나는 실수를하지 않고, 단지 논문을 감추고 있었지만, 그는 지속적인 학습 속도로 SGD 인 퍼셉트론 업데이트를 설명하고 있었지만.

— user0

맞습니다. 나는 당신이 선택한 인용문에서 확률 적 측면이 분명하지 않다고 말하고 있습니다. "확장 성"GD는 단순히 사용 가능한 모든 교육 샘플을 사용하여 그라디언트를 계산하는 대신 한 번에 하나의 교육 샘플을 업데이트 함을 의미합니다. en.wikipedia.org/wiki/Perceptron#Steps에 제공된 알고리즘 은이 "확장 성"측면을 2 단계에서 즉시 명확하게합니다.

— amoeba는 Reinstate Monica가