활성화 기능이 단조로운 이유는 무엇입니까?


15

현재 신경망 시험을 준비 중입니다. 이전 시험의 여러 프로토콜에서 (다층 퍼셉트론에서) 뉴런의 활성화 기능이 단조로워 야한다는 것을 읽었습니다.

활성화 함수는 미분 가능해야하며, 대부분의 점에서 0이 아닌 미분이어야하며 비선형이어야합니다. 왜 단조로운 것이 중요하고 도움이되는지 이해하지 못합니다.

다음과 같은 활성화 기능을 알고 있으며 단조로운 기능입니다.

  • RELU
  • 시그 모이 드
  • Softmax : 단 조성의 정의가 함수 f:RnRm 적용되는지 확실하지 않습니다 : R nR m withn,m>1
  • 소프트 플러스
  • (정체)

그러나 여전히 와 같은 이유를 알 수 없습니다 .φ(x)=x2

활성화 기능이 단조로운 이유는 무엇입니까?

(관련 부가 질문 : 로그 / 지수 함수가 활성화 함수로 사용되지 않는 이유가 있습니까?)



1
@MartinThoma softmax가 단조롭습니까?
Media

1
에프:아르 자형아르 자형미디엄미디엄>1미디엄=1<아르 자형>1

1
@MartinThoma 감사합니다. 실제로 그것은 또한 내 질문이었습니다. 여러 출력을 가진 함수에서 단조로운 확장이 있는지 알지 못했고 여전히 알지 못합니다. 수학 물건, 당신은 알고있다!
미디어

답변:


13

단 조성 기준은 신경망이보다 정확한 분류기로 더 쉽게 수렴 될 수 있도록 도와줍니다. 자세한 내용과 이유는 이 stackexchange 답변Wikipedia 기사 를 참조하십시오 .

그러나 단 조성 기준은 활성화 기능에 필수는 아닙니다.-비단 조 활성화 기능으로 신경망을 훈련시킬 수도 있습니다. 신경망을 최적화하는 것이 점점 어려워집니다. Yoshua Bengio의 답변을 참조하십시오 .


-1

왜 모노톤 기능이 도움이되는지에 대해 더 수학적인 이유를 제공 할 것입니다!

http://mathonline.wikidot.com/lebesgue-s-the-theorem-for-the-differentiability-of-monotone-fun을 사용하여 활성화 함수가 모노톤이라고 가정하면 실제 라인에서 함수는 다음과 같습니다. 차별화 할 수있는. 따라서 활성화 기능의 기울기는 비정상적인 기능이 아닙니다. 찾고있는 최소값을 찾는 것이 더 쉬울 것입니다. (계산적으로 저렴한)

지수 함수와 로그 함수는 아름다운 함수이지만 제한되지 않습니다 (따라서, Lebesgue 정리의 반대는 Exp와 Log가 실제 라인에 제한되지 않는 미분 함수이므로 사실이 아닙니다). 따라서 최종 단계에서 예제를 분류하려고 할 때 실패합니다. Sigmoid와 tanh는 계산하기 쉽고 그라디언트가 있고 범위가 각각 (0,1)과 (-1,1)이기 때문에 실제로 잘 작동합니다.


2
차별화 할 수는 있지만 단조로운 기능은 없습니다. 모노톤 기능이 도움이되는 이유는 무엇입니까?
Martin Thoma
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.