활성화 기능을 선택하는 방법은 무엇입니까?


13

필요한 출력과 내가 알고있는 활성화 기능의 속성에 따라 출력 레이어의 활성화 기능을 선택합니다. 예를 들어, 확률을 다룰 때는 시그 모이 드 함수, 양의 값을 다룰 때는 ReLU, 일반 값을 다룰 때는 선형 함수를 선택합니다.

숨겨진 층에서는 누수 ReLU를 사용하여 ReLU 대신 죽은 뉴런을 피하고 S 자형 대신 tanh를 피합니다. 물론 숨겨진 단위로 선형 함수를 사용하지 않습니다.

그러나 숨겨진 레이어에서 선택하는 것은 주로 시행 착오에 의한 것입니다.

어떤 상황에서 어떤 활성화 기능이 효과적 일지에 대한 경험 규칙이 있습니까? 가능한 일반적인 상황 이라는 용어 를 사용하십시오. 레이어의 깊이, NN의 깊이, 해당 레이어의 뉴런 수, 선택한 옵티 마이저, 입력 기능의 수를 나타냅니다. 해당 계층,이 NN의 응용 프로그램 등

에서 그 / 그녀의 대답 , cantordust 내가 ELU 및 SELU 같은 언급하지 않았다 다른 활성화 기능을 말합니다. 이 정보는 환영하는 것 이상입니다. 그러나 활성화 기능이 많을수록 숨겨진 레이어에서 사용할 기능을 선택하는 데 더 혼란 스럽습니다. 그리고 나는 동전을 뒤집는 것이 활성화 기능을 선택하는 좋은 방법이라고 생각하지 않습니다.

답변:


10

ReLU와 S 자형의 단점 (일반 ReLU의 경우 죽은 뉴런과 같은)을 이미 이해하고있는 것 같습니다. 나는 ELU (지수 선형 단위)와 SELU (ELU의 자체 정규화 버전 )를 살펴볼 것을 제안 합니다. 약간의 가벼운 가정 하에서 후자는 자기 정규화의 좋은 특성을 가지므로 그라디언트가 사라지고 폭발하는 문제가 완화됩니다. 또한 정규화 를 전파합니다. 즉, 다음 계층에 대한 입력의 평균 및 단위 분산이 0이되도록합니다.

편집하다:


SELU가 거의 모든 입력으로 올바른 작업을 수행하도록 설계 되었음에도 불구하고 모든 사용 사례에서 작동하는 활성화 기능을 권장하는 것은 매우 어렵습니다. 미분을 계산하는 것이 얼마나 어려운가 (전혀 차별화 할 수없는 경우!), 선택한 AF가있는 네트워크가 얼마나 빨리 수렴하고, 얼마나 매끄럽고, 그것이 근사 근사 정리 의 조건을 충족 하는지 여부 정규화 등을 유지합니다. 당신은 그들 중 일부 또는 일부에 관심이 있거나 없을 수도 있습니다.

결론은 숨겨진 레이어에 대한 활성화 기능을 선택하는 일반적인 규칙이 없다는 것입니다. 개인적으로, 나는 시그 모이 드를 사용하는 것을 좋아합니다. 특히 시그 모이 드를 사용하는 것이 tanh매우 제한적이며 계산 속도가 빠르지 만 가장 중요한 것은 내 유스 케이스에서 작동하기 때문 입니다. 다른 사람들 은 네트워크가 학습에 실패하면 입력 및 숨겨진 레이어에 누수 ReLU를 이동 기능으로 권장 합니다. 또한 활성화 기능을 혼합 및 일치 시켜 멋진 응용 분야를 위한 신경망을 발전시킬 수 있습니다 .

하루가 끝나면 올바른 활성화 기능 선택에 대한 사람들만큼 많은 의견을 얻을 수 있으므로 짧은 대답은 아마도 오늘의 AF로 시작해야합니다 (LeLU / SELU?). 네트워크가 무언가를 배우려고 애쓰는 경우 인기를 줄이려면 다른 AF를 통해 길을 따라야합니다.


1
나는 정규화의 전파를 잊었다. 상기시켜 주셔서 감사합니다. 그러나 질문에 여전히 답이 없습니다. 숨겨진 레이어에 어떤 활성화 기능을 넣어야하는지 선택할 규칙이나 무언가가 있습니까? 간단하게하기 위해 단순히 완전히 연결된 레이어에 대해서만 이야기하고 있습니다. 컨볼 루션, 풀링 등으로 주제를 복잡하게하고 싶지 않습니다.
gvgramazio

@gvgramazio 나는 대답을 편집 했으므로 지금은 조금 더 유용 할 것입니다.
cantordust

편집을 통해 내 질문에 대답하고 관심있는 링크 (특히 믹스 앤 매치 관련 링크)를 제공했다고 생각합니다 . 불행히도 내가 듣고 싶은 대답은 아닙니다. 나는 조금 더 며칠 동안 내 질문을 열어 둘 것이다. 더 나은 답변을 찾지 못하면 귀하의 답변을 수락 된 것으로 표시합니다.
gvgramazio

-1

어떤 신경망을 사용하고 있는지 모르겠습니다. 그러나 반복적 인 신경망을 다룰 때 탄 활성화 기능을 고려해야합니다. tanh 함수가 예를 들어 RELU 함수의 차이에 제한되어 있기 때문에 그라디언트 문제가 폭발하는 것을 피하는 이유는 무엇입니까?


이 질문에서 나는 ReLU뿐만 아니라 tanh와 sigmoid를 사용한다고 말했습니다. 또한 간단하게 유지하기 위해 일반적으로 고전적으로 숨겨진 완전히 연결된 레이어를 말합니다. 우리가 반복적 인 신경망을 다루고 있다는 사실이 활성화 기능의 선택에 중요하다고 생각한다면 그 이유를 설명하십시오. 폭발 / 소실 현상은 재발이 아닌 신경망에서도 발생할 수 있습니다.
gvgramazio
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.