신경망 숨겨진 활성화 기능의 선택


14

NN에서 숨겨진 레이어 활성화 기능의 선택은 사용자의 필요 에 따라 달라져야한다는 것을 다른 곳에서 읽었습니다 .

내 질문은 필요한 것이 무엇인지 어떻게 알 수 있습니까? 입력 레이어의 범위를 기준으로합니까? 예를 들어 입력 레이어의 전체 값 범위를 포괄 할 수있는 함수를 사용하거나 입력 레이어의 분포를 반영하는 기능을 사용합니까 (가우스 함수)? 또는 필요한 문제 / 도메인과 관련이 있으며이 선택을하려면 경험 / 판단이 필요합니까? 또는 단순히 "가장 교차 검증 된 최소 훈련 오류를 제공하는 것"입니까?


3
(tanh + 1) / 2도 0-1에 있기 때문에 "sigmoid"가 종종 tanh를 포함하는 모호한 용어라는 것은 말할 것도없고이 주장은 bs입니다.

모든 데이터 세트를 0-> 1로 정규화하고 시그 모이 드 활성화를 사용하도록 만들 수 있다고 언급 할 가치가 있습니다 1 + (1 / exp(-sum)). 만들기 필요 각 데이터 세트에 모두 노력없이 이해하기 매우 어려운합니다. 필요 하면 실제 관계로 연결되어 여기 설명으로는 이진 데이터 세트가 빠르거나 모든 주어진 다른 활성화에 배울 것, 즉 알게된다.
Adrian Seeley

답변:


12

LeCun은 효율적인 Backprop 섹션 4.4 에서 이에 대해 설명합니다 . 동기는 입력을 0 평균으로 정규화하기위한 동기와 유사합니다 (섹션 4.3). 탄화 활성화 함수의 평균 출력은 평균 출력이 양수 여야하는 시그 모이 드보다 제로에 가깝습니다.


매우 유익한 읽기!
babelproofreader

6

질문의 첫 번째 단락에서 언급 할 필요 는 숨겨진 계층 활성화 기능이 아니라 출력 계층 활성화 기능과 관련이 있습니다. 0에서 1까지의 출력 범위를 갖는 것이 편리하므로 직접 확률을 나타낼 수 있습니다. 그러나 tanh 출력 레이어 활성화 기능이있는 네트워크 IIRC는 로지스틱 출력 레이어 활성화 기능이있는 네트워크로 간단하게 변환 할 수 있으므로 실제로는 그다지 중요하지 않습니다.

IIRC 숨겨진 단위로 로지스틱 활성화 기능보다는 tanh를 사용하는 이유는 역 전파를 사용하여 가중치를 변경하면 숨겨진 레이어 뉴런의 출력과 활성화 함수의 파생물에 따라 달라집니다. 함수를 사용하면 동시에 0으로 설정할 수 있으며 숨겨진 레이어 단위가 정지 될 수 있습니다.

요컨대, 숨겨진 레이어 활성화 기능에 tanh를 사용하고 출력에 원하는 제약 조건을 적용하기 위해 출력 레이어 활성화 기능을 선택했습니다 (일반적인 선택 : 선형-제약 없음, 물류-출력은 0과 1 사이이며 지수-출력은 엄격하게 양수 임).


나는 "... 둘 다 제로가 ..." 출력이 0 일 수는 있지만 어떻게 물류 함수의 미분을 0으로 만들 수 있습니까?
erogol

로지스틱 함수의 경우 정확히 0이되지 않으며 매우 작아집니다. tanh 함수의 경우 미분 값은 출력이 0 일 때 최대 값이고 미분 값이 가장 작은 경우 최대 값입니다. 원래의 논문은 80 년대 후반에 쓰여졌으며, 세부 사항을 기억할 수 있는지 볼 것입니다.
Dikran Marsupial

2
원본 논문을 찾을 수 없지만 "Neural Networks-Tricks of the Trade"책의 일부 논문은 숨겨진 계층 활성화가 중앙에있을 경우 네트워크가 더 잘 수행되므로 숨겨진 계층에서 tanh가 더 우수하다고 제안합니다 (즉, 평균이 0 임) ).
Dikran Marsupial

2

사용할 수 있습니다 1.7159×(엑스×(2/))숨겨진 레이어에. 이 시그 모이 드는 2 차 도함수의 최대 값을 갖는다1+1 점근 적 한계는 [1.5,+1.5]. 이렇게하면 의사 결정 경계 근처의 지점에서 네트워크가 더 정확 해집니다.

목적으로 시그 모이 드를 선택하는 일반적인 개념은 규칙에 따라 하나를 선택하는 것입니다. 출력 값은 포인트 범위 내에 있으며, 시그 모이 드 함수의 2 차 미분을 최대로 만듭니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.