출력 레이어에 어떤 활성화 기능이 있습니까?


44

숨겨진 레이어에 대한 활성화 기능의 선택은 분명하지만 (주로 시그 모이 드 또는 탄), 출력 레이어의 활성화 기능을 결정하는 방법이 궁금합니다. 일반적인 선택은 선형 함수, S 자형 함수 및 소프트 맥스 함수입니다. 그러나 언제 어느 것을 사용해야합니까?


2
가장 최근에는 ReLU가 숨겨진 장치의 활성화 기능으로 널리 사용되었습니다.
ijuneja

답변:


39
  • 회귀 : 선형 (값이 제한되지 않기 때문에)
  • 분류 : softmax (간단한 S 자형도 작동하지만 softmax는 더 잘 작동합니다)

예를 들어 이미지에 다양한 객체가 있는지 확인하는 네트워크와 같이 출력에 여러 개의 "true"답변이 허용되는 경우에만 간단한 시그 모이 드를 사용하십시오. 즉, 결과는 확률 분포가 아닙니다 (1을 합할 필요는 없음).


2
분류를 위해 여러 그룹이있는 경우 Softmax도 중요합니다.
cdeterman

15
softmax가 S 자형보다 "더 나은"기능을하는 것은 잘못된 생각이지만 S 자형을 사용할 수없는 경우에는 softmax를 사용할 수 있습니다. 이진 분류의 경우, 로지스틱 함수 (시그 모이 드)와 softmax는 똑같이 잘 수행되지만 로지스틱 함수는 수학적으로 더 단순하므로 자연스러운 선택입니다. 그러나 둘 이상의 클래스가있는 경우 모든 클래스의 확률을 알기 위해 둘 이상의 출력이 필요하므로 로지스틱 함수와 같은 스칼라 함수를 사용할 수 없으므로 softmax를 사용하십시오.
HelloGoodbye

1
softmax가 활성화라고 생각하지 않습니다. 일반적으로, 정규화 (softmax)하기 전에 활성화해야합니다.
Aaron

23

나는 파티에 늦을지도 모르지만 여기에서 정리해야 할 것이있는 것 같습니다.

g(x)CzCz

C(y,g(z))=12(yg(z))2g(x)=x

C(y,g(z))z=C(y,g(z))g(z)g(z)z=g(z)(12(yg(z))2)z(z)=(yg(z))1=g(z)y
Cz

이것이 선형 활성화가 이진 / 멀티 클래스 분류를위한 회귀 및 로지스틱 / 소프트 맥스 활성화에 종종 사용되는 이유입니다. 그러나 다른 조합을 시도하지 않아도됩니다. 의 표현이지만Cz

둘째, 숨겨진 레이어에 사용할 수있는 활성화 기능이 많이 있다고 덧붙이고 싶습니다. 로지스틱 함수 및 쌍곡 탄젠트와 같은 시그 모이 드는 실제로 잘 작동하는 것으로 입증되었지만 Jatin 에 따르면 네트워크가 너무 깊어지면 그라디언트가 사라집니다. 이 경우 ReLU가 인기를 얻었습니다. 그래도 강조하고 싶은 것은 사용 가능한 활성화 기능이 훨씬 더 많으며 다른 연구자들이 새로운 기능 (예 : 지수 선형 단위 (ELU), 가우스 오차 선형 단위 (GELU) 등)을 계속 찾고 있다는 것입니다. 더 나은 속성

결론 : 최고의 활성화 기능을 찾을 때 창의력을 발휘하십시오. 다른 것들을 시도하고 어떤 조합이 최고의 성능을 이끌어 내는지보십시오.


부록 : 더 많은 쌍의 손실 함수와 활성화를 위해서는 아마도 (정규적인) 링크 함수 를 찾고 싶을 것입니다


왜 이것이 최선의 대답이 아닌가? 매우 대담하고 직관적이며 과학적입니다
Vikram Murthy

13

Sigmoid와 tanh는 숨겨진 레이어의 활성화 기능으로 사용해서는 안됩니다. 이는 사라지는 그래디언트 문제로 인해 발생합니다. 즉, 입력이 높은 쪽 (시그 모이 드가 평평한 곳)에 있으면 그래디언트는 0에 가까워집니다. 가중치가 실제로 작은 값으로 업데이트되므로 역 전파 동안 학습 속도가 매우 느리거나 전혀 발생하지 않습니다.

자세한 설명은 여기 : http://cs231n.github.io/neural-networks-1/#actfun

따라서 숨겨진 레이어에 가장 적합한 기능은 ReLu입니다.


11
문제는 출력 레이어를 요청하는 것입니다. -1
Euler_Salter

1
동의했다. 첫 번째 질문 줄을 기반으로 답변을 추가했습니다. 어쩌면 이것은 대답이 아닌 의견이어야합니다.
Jatin

그런데 "죽은 ReLU 뉴런 문제가 발생하지 않습니까?" 또한, 배니 시지 구배 문제는 배치 정규화에 의해 "해결"될 수있다. ReLU 활성화와 같은 방식으로 일부 뉴런을 "비활성화"하려는 경우 드롭 아웃을 통해 뉴런을 무작위로 끌 수 있습니다. 내가 마지막에 생각 그래서, 모든 문제에 따라 단지 가장 적합한 사용
Kevvy 김

5

2,3,4,5,...

2,3,4,...

p(y=1)1p(y=1)=p(y=0)

출력이 제한되지 않은 경우 identity 함수를 출력으로 사용하면 도움이 될 수 있습니다. 분기에 대한 일부 회사의 손익은 어느 쪽이든 제한되지 않습니다.

출력이 위 또는 아래로 제한 될 때 ReLU 장치 또는 이와 유사한 변형이 도움이 될 수 있습니다. 출력이 음이 아닌 것으로 만 제한되면 ReLU 활성화를 출력 기능으로 사용하는 것이 좋습니다.

[1,1]

신경망의 장점은 매우 유연한 도구라는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.