컨볼 루션 뉴럴 네트워크에서 최종 Softmax 레이어 이전의 비선형 성


12

나는 회선 신경망을 연구하고 구현하려고 노력하고 있지만이 질문이 일반적으로 다층 퍼셉트론에 적용되는 것으로 가정합니다.

내 네트워크의 출력 뉴런은 각 클래스의 활성화를 나타냅니다. 가장 활동적인 뉴런은 주어진 입력에 대해 예측 된 클래스에 해당합니다. 훈련에 대한 교차 엔트로피 비용을 고려하기 위해 네트워크의 끝에 softmax 레이어를 추가하여 각 뉴런의 활성화 값이 확률 값으로 해석됩니다.

내 질문은 : 출력 레이어의 뉴런이 입력에 비선형 함수를 적용해야합니까? 내 직감은 필요하지 않다는 것입니다.

  • 입력받는 경우, i 번째의 출력 뉴런 내적은 xTθi 벡터 사이 x (이전 층에서 나오는) 및 가중치 θi 그 뉴런 들어
  • 그리고 내가 S 자형 또는 ReLU와 같은 단조로운 비선형 함수를 사용하는 경우
  • 그러면 더 큰 활성화 출력은 여전히 ​​가장 큰 해당 하므로이xTθi 관점에서 비선형 함수는 예측을 변경하지 않습니다.

이 해석에 문제가 있습니까? 출력을 비선형으로 만드는 데 필요한 몇 가지 교육 요소가 있습니까?

max(0,xTθi)

편집하다

Karel의 대답은 기본적으로 "그것에 달려 있습니다"라는 대답과 관련하여 내 네트워크와 의심에 대한 자세한 설명입니다.

N 개의 숨겨진 레이어가 있고 출력 레이어가 클래스를 나타내는 뉴런 세트에 대한 softmax 레이어라고 가정합니다 (따라서 예상되는 출력은 입력 데이터가 각 클래스에 속할 확률입니다). 첫 번째 N-1 레이어에 비선형 뉴런이 있다고 가정하면 N 번째 숨겨진 레이어에서 비선형 뉴런과 선형 뉴런을 사용하는 것의 차이점은 무엇입니까?



층 N-2, N-3, .. 1은 선형 또는 비선형입니까?
Karel Macek

1 (입력에 가장 가까운)에서 N-1까지의 레이어는 비선형입니다. 레이어 N은 마지막 (출력에 더 가까운) 숨겨진 레이어입니다. 소프트 맥스 층은 층 N + 1이다.
랜드

1
softmax 직전의 BN 레이어는 어떻습니까? 비선형은 괜찮습니까? (비선형 성으로 간주됩니까?)
Charlie Parker

답변:


11

softmax 분류 전에 마지막 레이어에 비선형 성을 사용해서는 안됩니다. 이 경우 거의 독점적으로 사용되는 ReLU 비선형 성은 추가적인 이점을 추가하지 않고 단순히 정보를 버립니다. 실제로 수행 된 작업에 대한 참조는 잘 알려진 AlexNet 의 caffe 구현 을 볼 수 있습니다 .


2
softmax 직전의 BN 레이어는 어떻습니까? 비선형은 괜찮습니까? (비선형 성으로 간주됩니까?)
Charlie Parker

6

사건이 확률이 낮음을 나타 내기 위해 softmax 함수에 음수 값을 보내려고 할 수 있습니다. 입력 값을 relu에 전달하면 네트워크는 relu에 대한 입력이 음수 인 단위를 통해 그라디언트를 전달하지 않습니다. 따라서 softmax의 표현력은 변하지 않지만 학습이 훨씬 어려워 질 것입니다.


0

대답은 예 또는 아니오가 아닙니다. 네트워크에 대한 귀하의 기대에 크게 좌우됩니다. 나는 당신이 아마도 광범위한 문제에 적용 할 수있는 좋은 분류기를 원한다고 가정한다. 따라서 비선형 성은 사소한 클래스를 캡처하는 데 도움이 될 수 있습니다. 비선형 성은 soft-max 레이어 이전의 마지막 레이어에 포함되거나 이전 레이어에 포함될 수 있습니다.


내 편집 내용을 볼 수 있습니까?
rand
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.