분류기와 같은 머신 러닝 알고리즘은 여기서 다른 카테고리에 속하는 입력 의 확률 을 결정함으로써 입력 데이터를 통계적으로 모델링합니다 . 임의의 수의 클래스의 경우 일반적으로 softmax 레이어가 모델에 추가되므로 출력은 설계에 따라 확률 적 특성을 갖습니다.
와이⃗ = softmax를 (⃗ ) ≡ 1∑나는이자형− a나는× [ e− a1, 전자− a2, . . . , 전자− a엔]
0 ≤ y나는 모든 i에 대해 ≤ 1
와이1+ y2+ . . . + y엔= 1
여기서, 는 소프트 맥스 층 이전의 층의 활성화이다.에이
이것은 두 클래스에 대해 완벽하게 유효하지만 출력이 다음을 충족하면 하나의 뉴런 (두 개 대신)을 사용할 수도 있습니다.
0 ≤ y 모든 입력에 대해 ≤ 1
위의 조건이 충족되도록 에
를 매핑 변환 (역 전파 목적으로 구분 / 부드럽게)을 적용하면이를 보장 할 수 있습니다 . S 자형 함수는 우리의 기준을 충족시킵니다. 간단한 수학적 표현 외에는 특별한 것이 없습니다.
에이와이
시그 모이 드 ( a ) ≡ σ( a ) ≡ 11 + 전자− a
유용한 수학적 특성 (분화, 0과 1 사이의 경계 등), 계산 효율성 및 네트워크 가중치를 업데이트하면 최적화 목적으로 출력에 작지만 측정 가능한 변화가있을 수 있도록 올바른 기울기를 갖습니다.
결론
softmax와 sigmoid를 보여주는 @itdxer의 추론이 유효한 경우 동등한 지 확실하지 않지만, 더 적은 매개 변수와 계산이 필요하기 때문에 이진 분류기에 대해 2 개의 뉴런과 달리 1 뉴런을 선택하는 것이 옳습니다 . 나는 또한 "불필요하기 때문에"이진 분류기에 두 개의 뉴런을 사용하는 것에 대해 비판을 받았다.