을 바탕으로 우리가 DataScience에 게시 된 질문 CrossValidated에 게시 된 질문의 중복 때 어떻게해야합니까? , CrossValidated ( https://stats.stackexchange.com/a/311318/89653 ) 와 동일한 질문에 대한 답변을 다시 게시하고 있습니다.
참고 :이 답변 전체에서 나는 교육 손실 최소화를 언급하며 유효성 검사 손실과 같은 중지 기준에 대해서는 논의하지 않습니다. 중지 기준의 선택은 아래 설명 된 프로세스 / 개념에 영향을 미치지 않습니다.
신경망 훈련 프로세스는 손실 함수의 최소값을 찾는 것이다 , 뉴런 간의 가중치 매트릭스 (또는 여러 매트릭스)을 나타내고, 상기 트레이닝 데이터 세트를 나타내고있다. 나는에 대한 첨자를 사용하는 의 우리의 최소화를 나타 내기 위해 단지 무게에 걸쳐 발생하는 (즉, 우리가 찾고있는 있도록 동안 최소화) 고정되어 있습니다.LX(W)WXXLWWLX
이제 요소 가 있다고 가정하면 (즉 , 네트워크에 가중치가 있음), 는 차원 공간 의 표면입니다 . 시각적 아날로그를 제공하기 위해 우리는 단지 두 개의 뉴런 가중치 ( )를 가지고 있다고 상상해보십시오 . 그러면 ℒ 는 쉬운 기하학적 해석을합니다. 3 차원 공간의 표면입니다. 이것은 주어진 웨이트 행렬 W 에 대해 손실 함수가 X에서 평가 될 수 있고 그 값이 표면의 높이가 된다는 사실에서 발생합니다 .PWPLP+1P=2LWX
그러나 비 볼록성의 문제가 있습니다. 내가 기술 한 표면은 수많은 국소 적 최소값을 가지게되는데, 그래디언트 디센트 알고리즘은 그 최소값에서 "고착"될 수있는 반면, 더 깊거나 더 낮거나 더 나은 해결책이 근처에있을 수있다. 표면이 주어진 대해 고정되어 있기 때문에 모든 훈련 반복에서 가 변경되지 않은 경우에 발생할 수 있습니다 . 다양한 최소값을 포함하여 모든 기능이 정적입니다.XX
이에 대한 해결책은 셔플 링과 결합 된 미니 배치 훈련입니다. 주어진 반복 동안 행을 셔플하고 행의 일부만 훈련하면 는 모든 반복 마다 변경되며 실제로 전체 반복 교육 반복 및 에포크에서 두 번의 반복이 동일한 에서 수행되지 않을 가능성이 있습니다. . 결과는 솔버가 로컬 최소값에서 쉽게 "바운스"될 수 있다는 것입니다. 훈련 미니 배치 X i로 솔버가 반복 i 에서 로컬 최소값에 고정되어 있다고 상상해보십시오 . 이 극소 대응 ℒ 가중치의 특정 값에서 평가; 우리는 그것을 ℒ X i ( WXXXiXiL . 우리가 사용하고 있기 때문에 다음 반복에 대한 우리의 손실면의 형상은 실제로 변경 X의 I + 1 이며, ℒ X를 I + 1 ( W I ) 에서 매우 다른 값을 취할 수있다 ℒ X I ( W I ) 및 그것을 지역 최소값에 해당하지 않을 가능성이 있습니다! 이제 그라디언트 업데이트를 계산하고 교육을 계속할 수 있습니다. 명확하게하려면 다음의 모양 ℒ X는 내가 + 1이 됩니다 - 일반적으로 -의 다를 수 ℒ X의 난엘엑스나는( W나는)엑스나는 + 1엘엑스나는 + 1( W나는)엘엑스나는( W나는)엘엑스나는 + 1엘엑스나는. 나는 손실 함수를 참조하고 여기에 참고 훈련 세트에서 평가 X ; 특정 값 W에 대한 손실 (스칼라 일뿐)의 평가가 아니라 가능한 모든 W 값에 대해 정의 된 완전한 표면 입니다. 또한 셔플 링없이 미니 배치를 사용하는 경우 손실 표면의 "다각화"정도는 여전히 남아 있지만 솔버가 볼 수있는 유한 한 (그리고 상대적으로 작은) 고유 한 오류 표면이 있습니다 (특히, 각각의 에포크 동안 동일한 정확한 미니 배치 세트-따라서 손실 표면-).엘엑스여여
내가 의도적으로 피한 것 중 하나는 미니 배치 크기에 대한 논의였습니다. 왜냐하면 이것에 대한 백만 가지 의견이 있고 상당한 실질적인 영향을 미치기 때문입니다 (더 큰 배치로 더 큰 병렬화를 달성 할 수 있음). 그러나 나는 다음과 같은 가치가 있다고 생각합니다. 는 주어진 가중치 행렬 W 에 대해 X의 각 행에 대한 값을 계산하여 (평균을 합산하거나 계산하는 연산자) 평균값을 계산함으로써 평가 되므로 , X 의 행 배열은 전체를 사용할 때 영향을 미치지 않습니다. 배치 그라디언트 디센트 (즉, 각 배치가 전체 X 이고 반복 및 에포크가 동일한 경우).엘엑스여엑스 엑스