활성화 기능을 혼합하면 어떻게됩니까?


10

ReLU, S 자형 또는 . 활성화 기능을 혼합하면 어떻게됩니까?

최근 Google에서 (x * sigmoid) Swish 활성화 기능을 개발했습니다. 활성화 기능을 변경하여 XOR 문제와 같은 작은 신경망 문제에서 정확도를 높일 수 있습니까?

답변:


2

일반적인 활성화 함수를 결합하는 동작에 대한 일반적인 대답은 미적분의 법칙, 특히 미분 미적분학을 적용해야하며 결과는 조립 된 함수의 품질을 보장하기 위해 실험을 통해 얻어야하며 추가 복잡성은 계산 시간을 늘리십시오. 이러한 증가에 대한 예외는 조합의 계산 부담이 조합이 제공하는 수렴 이점에 비해 작을 때입니다.

이것은 Swish에 해당되는 것으로 보입니다.

에프(엑스)=엑스에스(β엑스),

어디 에프() Swish 활성화 기능이며 에스S 자형 함수입니다. Swish는 정품 인증 기능의 조합이 아닙니다. 하이퍼 파라미터를 추가하여 형성β S 자형 함수 내부와 S 자형 함수 결과에 대한 입력의 곱셈.

Google에서 개발 한 것으로 보이지 않습니다. 원래 익명으로 제출 된 논문 (ICLR 2018 논문으로 이중 맹검 검토 용), Searching for Activation Functions 는 Prajit Ramachandran, Barret Zoph 및 Quoc V. Le가 2017 년경에 작성했습니다. 이것이 그들의 주장입니다.

우리의 실험에 따르면 가장 까다로운 활성화 기능인 ... Swish는 ...가 까다로운 여러 데이터 세트에서 더 깊은 모델에서 ReLU보다 더 잘 작동하는 경향이 있습니다.

천문학적으로 드문 경우를 제외하고, 천문학적으로 드문 경우를 제외하고, 한 층으로의 활성화 기능의 변경은 영향 정확도, 신뢰성 및 계산 효율을 나타냅니다. 변경이 중요한지 일반화 할 수 없습니다. 그렇기 때문에 전통적으로 유용성을 측정하는 데 사용되는 데이터 세트에 대해 새로운 아이디어가 테스트되는 이유 1 .

새로운 활성화 기능을 형성하기 위해 활성화 기능을 결합하는 것은 일반적이지 않습니다. 예를 들어 AlexNet은 이들을 결합하지 않습니다. 2 . 그러나 효과적인 단일 네트워크 설계의 여러 계층에서 서로 다른 활성화 기능을 사용하는 것이 매우 일반적입니다.


각주

[1] 이러한 전통이 편견을 만드는지 여부는 또 다른 질문입니다. 스웨덴 컴퓨터 과학자 Ivar Hjalmar Jacobson 또는 6 Sigma 아이디어에 의해 개척 된 유스 케이스 분석 이론을 따르는 사람들은 이러한 테스트가 실제 사용 사례에 대한 기능 테스트가 아니라 단위 테스트라고 말하고 있습니다.

[2] AlexNet이라는 다른 대답에서 발생할 수있는 오해를 바로 잡기 위해 Alex Krizhevsky, Ilya Sutskever 및 Geoffrey E. Hinton의 심층 컨볼 루션 신경망이용한 ImageNet 분류 (2012)에 설명 된 접근 방식의 이름 인 AlexNet 토론토는 활성화 기능을 결합하여 새로운 기능을 형성하는 것을 포함하지 않습니다. 그들은 이것을 씁니다.

마지막으로 완전히 연결된 레이어의 출력은 1000-way softmax로 공급되어 1000 클래스 레이블에 분포합니다.

...

ReLU 비선형 성은 모든 회선 및 완전 연결된 계층의 출력에 적용됩니다. 내부 레이어는 순수 ReLU이고 출력 레이어는 Softmax입니다.

AlexNet 접근 방식의 일련의 계층에는 컨볼 루션 커널과 풀링 계층이 있으며 2012 년 ImageNet 경쟁에서 우승 한 이후 디자인이 일반적으로 사용되었습니다. 다른 접근 방식은 후속 경쟁에서 승리했습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.