뉴턴 유형의 방법에서 각 단계에서 d ( error )를 해결합니다.문제의선형화 된또는 대략적인 버전의 경우 d w =0입니다. 그런 다음 새로운 점에 대해 문제가 선형화되고 수렴 될 때까지 프로세스가 반복됩니다. 어떤 사람들은 신경망을 위해 그것을 해왔지만 다음과 같은 단점이 있습니다.디( 오류 )디승= 0
- 이차 미분 (헤 시안, 특히 헤 시안 벡터 제품)을 다룰 필요가있다.
- "해결 단계"는 계산 비용이 매우 많이 듭니다. 해결을하는 데 걸리는 시간에 많은 경사 하강 반복을 수행했을 수 있습니다.
하나는 Hessian solve에 Krylov 방법을 사용하고 Hessian에는 좋은 전제 조건을 사용하지 않으면 대략 균형을 이루는 비용-Newton 반복이 훨씬 오래 걸리지 만 더 많은 진행이 이루어 지므로 총 시간이 대략적으로 소요됩니다 경사 하강보다 같거나 느리다. 다른 한편으로, 좋은 Hessian 선 조건자가 있다면 Newton의 방법이 큰 성공을 거두게됩니다.
즉, 신뢰 영역 인 Newton-Krylov 방법은 현대의 대규모 최적화에서 금본위 제이며, 사람들이 점점 더 큰 문제를 해결하기 위해 앞으로 몇 년 동안 신경망에서 그 사용이 증가 할 것으로 기대합니다. (또한 수치 최적화에 더 많은 사람들이 기계 학습에 관심을 가질수록)