나는 회선 신경망을 연구하고 구현하려고 노력하고 있지만이 질문이 일반적으로 다층 퍼셉트론에 적용되는 것으로 가정합니다.
내 네트워크의 출력 뉴런은 각 클래스의 활성화를 나타냅니다. 가장 활동적인 뉴런은 주어진 입력에 대해 예측 된 클래스에 해당합니다. 훈련에 대한 교차 엔트로피 비용을 고려하기 위해 네트워크의 끝에 softmax 레이어를 추가하여 각 뉴런의 활성화 값이 확률 값으로 해석됩니다.
내 질문은 : 출력 레이어의 뉴런이 입력에 비선형 함수를 적용해야합니까? 내 직감은 필요하지 않다는 것입니다.
- 입력받는 경우, 번째의 출력 뉴런 내적은 벡터 사이 (이전 층에서 나오는) 및 가중치 그 뉴런 들어
- 그리고 내가 S 자형 또는 ReLU와 같은 단조로운 비선형 함수를 사용하는 경우
- 그러면 더 큰 활성화 출력은 여전히 가장 큰 해당 하므로이 관점에서 비선형 함수는 예측을 변경하지 않습니다.
이 해석에 문제가 있습니까? 출력을 비선형으로 만드는 데 필요한 몇 가지 교육 요소가 있습니까?
편집하다
Karel의 대답은 기본적으로 "그것에 달려 있습니다"라는 대답과 관련하여 내 네트워크와 의심에 대한 자세한 설명입니다.
N 개의 숨겨진 레이어가 있고 출력 레이어가 클래스를 나타내는 뉴런 세트에 대한 softmax 레이어라고 가정합니다 (따라서 예상되는 출력은 입력 데이터가 각 클래스에 속할 확률입니다). 첫 번째 N-1 레이어에 비선형 뉴런이 있다고 가정하면 N 번째 숨겨진 레이어에서 비선형 뉴런과 선형 뉴런을 사용하는 것의 차이점은 무엇입니까?