그래디언트 디센트가 비효율적이라는 주장에 컨텍스트를 제공하면 도움이됩니다. 무엇에 비해 비효율적입니까?
여기서 누락 된 컨텍스트는 기계 학습의 확률 적 또는 배치 그라디언트 디센트와 비교되는 것 같습니다. 이 문맥에서 질문에 대답하는 방법은 다음과 같습니다. 하이퍼 파라미터까지 모델의 매개 변수를 최적화하고 있습니다. 따라서 비용 함수 , 여기서 데이터, 매개 변수 벡터 및 -손실 함수가 있습니다. 이 비용을 최소화하려면 매개 변수 :
∑ni=1L(xi|Θ)xiΘL() θj
∂∂θj∑i=1nL(Θ|xi)
따라서 모든 데이터 대한 합계를 합니다. 이는 그라디언트 하강의 각 단계에 대한 데이터를 계속 반복한다는 의미이므로 불행한 일입니다. 이것이 배치 및 확률 적 경사 하강이 나타나는 방법입니다. 데이터 세트에서 샘플링하고 전체 세트가 아닌 샘플의 경사도를 계산하면 어떻게됩니까?
여기서 는 표본 의 관측치 수입니다 . 따라서 표본이 총 집합의 1/100이면 계산 속도를 100 배 향상시킵니다! 분명히 이것은 학습을 연장시키는 소음을 유발하지만 소음은 비율로 감소합니다.xi=1,…,n
∂∂θj∑k=1nsL(Θ|xk)
nssn−−√계산량 이 에서 증가 하므로이 트릭이 작동 할 수 있습니다.
n
또는 전체 합계 이 계산 될 때까지 기다리는 대신 이를 일괄 처리로 분할하고 각 일괄 처리에 대해 단계를 수행 할 수 있습니다. . 이렇게하면 전체 데이터 세트에 대한 합계가 계산 될 때까지 M 단계를 수행하게됩니다. 이 단계는 소음이 많지만 시간이 지남에 따라 소음이 사라집니다.∑ni=1∑Ms=1∑nsis=1