신경망에서의 탠 대 시그 모이 드


16

나는 여전히 이것에 속도를 내고 있다는 사실에 대해 사과드립니다. 내 신경 활성화 기능에 tanh (map -1 to 1) 대 sigmoid (map 0-1)를 사용하는 장단점을 이해하려고합니다. 내 독서에서 그것은 약간의 차이가있는 사소한 것 같았습니다. 실제로 내 문제에 대해 나는 시그 모이 드가 훈련하기 쉽고 이상하다는 것을 알았습니다. 시그 모이 드는 일반적인 솔루션을 더 잘 찾는 것으로 보입니다. 이것은 시그 모이 드 버전이 훈련을 마치면 참조 (훈련되지 않은) 데이터 세트에서 잘 수행된다는 것을 의미합니다. 여기서 탄 버전은 훈련 데이터에 대한 정답을 얻을 수는 없지만 참조에 대한 성능이 떨어집니다. 이것은 동일한 네트워크 아키텍처를위한 것입니다.

내가 가진 직관 중 하나는 sigmoid를 사용하면 뉴런이 거의 완전히 꺼지기 쉬워 후속 레이어에 입력을 제공하지 않는다는 것입니다. tanh는 입력을 완벽하게 취소해야하기 때문에 시간이 좀 더 소요됩니다. 그렇지 않으면 항상 다음 레이어에 값을 제공합니다. 어쩌면이 직관이 잘못되었을 수도 있습니다.

긴 게시물. 결론적으로, 거래는 무엇이고, 큰 차이를 만들어야합니까?

답변:


23

Symon Haykin의 "Neural Networks : A Comprehensive Foundation"책에는 내가 인용 한 다음 설명이 있습니다.

xx[0,1][1,1] , 제로가 될 그 평균값에 대한 것 인 경우. 네트워크 연결이 크면 비대칭 활성화 기능을 사용한 역 전파 학습은 비대칭 활성화 기능을 사용하는 유사한 프로세스보다 더 빠른 수렴을 얻을 수 있으며 경험적 증거도 있습니다 (LeCun et al. 1991).

인용 문헌은 다음과 같습니다.

  • Y. LeCun, I. Kanter 및 SASolla : "오류 표면의 2 차 속성 : 학습 시간 및 일반화", 신경 정보 처리 시스템의 발전, vol. 3, 918-924, 1991 쪽.

또 다른 흥미로운 참조는 다음과 같습니다.

  • Y. LeCun, L. Bottou, G. Orr 및 K. Muller : Orf, G. and Muller K. (Eds), 신경망 : 거래의 비결, Springer, 1998 년의 " 효율적인 BackProp "

ReLU 뉴런은 편향에도 불구하고 꽤 잘 작동하는 것 같습니다. 그것에 대해 어떤 생각이 있습니까?
Ark-kun

@ Ark-kun, 나는 ReLU 뉴런에 대해 잘 모르지만 저자가 그러한 활성화 기능의 장점을 설명하는이 백서를 참조 할 수 있습니다. X. Glorot, A. Bordes 및 Y. Bengio "깊은 스파 스 정류기 신경망 AISTATS 2011. jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf
tiagotvv

1

이 두 가지 활성화 기능은 매우 유사하지만 상쇄됩니다. 내 원래 네트워크에는 편견이 없었습니다. 바이어스를 추가하기 때문에 모든 것이 훨씬 안정적입니다. 내 경험에 따르면, 이들 중 하나 또는 다른 하나는 복잡하고 알 수없는 이유로 특정 응용 프로그램에서 더 잘 작동 할 수 있지만 올바른 방법은 바이어스 용어를 포함하여 활성화 오프셋에 대한 의존성이 줄어들거나 제거 될 수 있다고 말합니다.


0

출력 노드에서의 활성화는 (이진) 교차 엔트로피 손실과 함께 작동하지 않습니다.

=1나는(와이나는로그(나는)+(1와이나는)로그(1나는))

어디 와이나는 샘플의 목표 값입니다 나는나는 샘플 네트워크 출력 나는.

만약 나는 의 출력입니다 함수는 음수의 로그를 가져옵니다. 따라서 출력에서 ​​시그 모이 드 활성화 기능이 이러한 경우에 더 적합합니다.


그래도 확장 할 수 있습니다. TANH (X) -1 주 유도체, 및 음극 로그 문제 없다
파블로 Arnau 곤잘레스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.