중심이 아닌 활성화 기능이 역 전파에서 왜 문제가됩니까?


26

나는 여기 에서 다음을 읽었습니다 .

  • S 자형 출력은 0 중심이 아닙니다 . 신경망에서 나중 프로세싱 계층의 뉴런이 곧 중심에 있지 않은 데이터를 수신하기 때문에 바람직하지 않습니다. 뉴런으로 들어오는 데이터가 항상 양수인 경우 (예 : 에서 요소 ), 역 전파 동안 가중치 의 기울기 는 모두 양수이거나 모두 음수입니다 (전체 식의 기울기에 따라 x>0f=wTx+bwf). 이것은 가중치에 대한 기울기 업데이트에서 바람직하지 않은 지그재그 역학을 야기 할 수있다. 그러나 이러한 그라디언트가 일련의 데이터에 합산되면 가중치에 대한 최종 업데이트는 가변 기호를 가질 수 있으며이 문제를 다소 완화 할 수 있습니다. 따라서 이는 불편하지만 위의 포화 활성화 문제와 비교할 때 덜 심각한 결과를 초래합니다.

왜 모든 (요소 별)을 갖는 것이 에서 모든 양의 또는 음의 그라디언트로 이어질 까요?x>0w



2
CS231n 비디오를 보는 것과 똑같은 질문이있었습니다.
subwaymatch

답변:


28

f=wixi+b
dfdwi=xi
dLdwi=dLdfdfdwi=dLdfxi

때문에 xi>0 , 그라데이션 dLdwi 항상 동일한 로그인 dLdf (모든 양 또는 전부를 제외).

업데이트
말은 두 개의 매개 변수가 및 두 가지 차원의 기울기는 항상 같은 부호의 경우, 우리가 단지 매개 변수 공간에서 동북 또는 남서 방향으로 약 이동할 수 있다는 것을 의미합니다.w1w2

우리의 목표가 북동쪽에있는 경우 좁은 공간의 평행 주차와 마찬가지로 지그재그 방식으로 만 이동할 수 있습니다. (내 그림을 용서)

여기에 이미지 설명을 입력하십시오

따라서, 그라디언트 기반 최적화에는 모든 양성 또는 모든 음성 활성화 기능 (relu, sigmoid)이 어려울 수 있습니다. 이 문제를 해결하기 위해 배치 / 레이어 정규화에서와 같이 데이터를 0 중심으로 미리 정규화 할 수 있습니다.

또한 내가 생각할 수있는 또 다른 해결책은 각 입력에 대해 바이어스 용어를 추가하여 레이어가 그래디언트는 . 부호는 에만 의존하지 않습니다 .

f=wi(xi+bi).
dLdwi=dLdf(xibi)
xi


내가 틀렸지 만 여기에서 Jacobin의 아이디어를 사용하기 때문에 dL / df의 값을 x ie xT로 바꾸면 안됩니다.
chinmay

@chin은 답장이 늦어서 죄송합니다. 여기서 는 의 결과 이므로 dL / df의 값은 x에 의존하지 않으며 일반적으로 은 스칼라이고 와 는 1d 벡터이므로 dL입니다. / df도 스칼라 여야합니까? fwTx+bLwx
dontloo

그렇습니다, 그것은 나의 끝에서 큰 오타입니다. 나는 df / dw를 의미했지만 ... x 벡터에 더 의존하고 그것이 행 벡터 또는 열 벡터인지에 대한 생각
chinmay

@dontloo 매우 늦은 답변에 대해 죄송하지만 와 동일한 부호를 갖는 그래디언트의 문제점은 무엇 입니까? dL/df
플로이드

1
@floyd 안녕 난 방금 질문에 대한 업데이트를 추가했습니다
dontloo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.