신경망 : 이진 분류의 경우 1 개 또는 2 개의 출력 뉴런을 사용합니까?


26

이진 분류를 수행하고 싶다고 가정합니다 (뭔가 클래스 A 또는 클래스 B에 속함). 신경망의 출력 레이어에서이를 수행 할 수있는 몇 가지 가능성이 있습니다.

  • 1 개의 출력 노드를 사용하십시오. 출력 0 (<0.5)은 클래스 A로 간주되고 1 (> = 0.5)은 클래스 B로 간주됩니다 (시그 모이 드의 경우).

  • 2 개의 출력 노드를 사용하십시오. 입력은 가장 높은 값 / 확률 (argmax)을 가진 노드의 클래스에 속합니다.

이에 대해 논의한 논문이 있습니까? 검색 할 특정 키워드는 무엇입니까?

이 질문은이 사이트에서 이미 요청되었습니다. 예를 들어 실제 답변이없는 이 링크보십시오 . 선택 (Master Thesis)을해야하므로 각 솔루션의 장단점에 대한 통찰력을 얻고 싶습니다.


나는 연결된 질문의 OP가 좋은 지적을 가지고 있다고 생각한다. 유일한 차이점은 선택 2가 더 많은 수의 매개 변수를 가지고 있고, 더 유연하지만 과잉 피팅되기 쉽다는 것입니다.
dontloo

1
Udacity ML Nanodegree에서 네트워크에 오류가 적기 때문에 결과가 상호 배타적 인 경우 하나의 출력 노드를 사용하는 것이 좋습니다. 나는이 경우에 2 개의 출력 노드를 사용하는 전문가는 없다고 생각하지만 이에 대한 과학적 증거는 없다
CodingYourLife

답변:


25

두 번째 경우에는 아마도 softmax 활성화 기능에 대해 쓰고있을 것입니다. 그것이 사실이라면, S 자형보다 소프트 맥스 기능의 특별한 경우 일뿐입니다. 보여주기 쉽다.

와이=11+이자형엑스=11+1이자형엑스=1이자형엑스+1이자형엑스=이자형엑스1+이자형엑스=이자형엑스이자형0+이자형엑스

보시다시피 sigmoid는 softmax와 같습니다. 두 개의 출력이 있다고 생각할 수 있지만 그 중 하나는 모든 가중치가 0과 같으므로 출력은 항상 0과 같습니다.

따라서 이진 분류에 대한 더 나은 선택은 더 빨리 업데이트되므로 두 개의 출력 단위를 가진 softmax 대신 sigmoid를 가진 하나의 출력 단위를 사용하는 것입니다.


당신이 그들 중 하나가 모두 0을 가졌다 고 말할 때, 모델이 훈련 중 클래스 중 하나를 고려하지 않았다는 것을 의미합니까? 실제로, 우리는이 바이너리 분류기를 실제로 한 클래스의 훈련 데이터로 훈련시킬 수 있습니까?
데드 코드

훈련 및 수업 중 임계 값 (바운드)이 고정 된 것과 같습니다. 따라서 양수 클래스이고 음수 클래스임을 알 수 있습니다. softmax를 사용하면 다른 임계 값을 배우고 다른 경계를 가질 수 있습니다. 모든 0의 RE 가중치, 나는 두 개의 출력 중성자가 있고 출력 중 하나가 이고 다른 하나가 항상 입력의 경우 입력이 무엇이든 상관없이 2 개의 출력을 갖는 소프트 맥스와 동일한 시그 모이 드를 의미했습니다 . 두 번째 출력에 대해 모든 가중치가 0 인 경우에만 가능합니다. 도움이 되길 바랍니다. 엑스>0엑스<0엑스0
itdxer

1
exp(x+alpha) / (exp(alpha) + exp(x+alpha))가중치가 모두 0으로 표시된 것과 동일한 분류 결과를 생성 하는 형태의 분해 솔루션 ( 실제로는 무한한 수)이 있습니다. 가중치는 모두 0으로 훈련되지는 않지만 대신 분해되도록 훈련합니다. 하나의 출력 뉴런 만 사용하여 (무의미하고 낭비적인) 퇴행성 용액을 피하십시오.
Dan Nissenbaum

2

분류기와 같은 머신 러닝 알고리즘은 여기서 다른 카테고리에 속하는 입력 의 확률 을 결정함으로써 입력 데이터를 통계적으로 모델링합니다 . 임의의 수의 클래스의 경우 일반적으로 softmax 레이어가 모델에 추가되므로 출력은 설계에 따라 확률 적 특성을 갖습니다.

와이=소프트 맥스(에이)1나는이자형에이나는×[이자형에이1,이자형에이2,...,이자형에이]

0와이나는1 모두를 위해
와이1+와이2+...+와이=1

여기서, 는 소프트 맥스 층 이전의 층의 활성화이다.에이

이것은 두 클래스에 대해 완벽하게 유효하지만 출력이 다음을 충족하면 하나의 뉴런 (두 개 대신)을 사용할 수도 있습니다.

0와이1 모든 입력에 대해.
위의 조건이 충족되도록 에 를 매핑 변환 (역 전파 목적으로 구분 / 부드럽게)을 적용하면이를 보장 할 수 있습니다 . S 자형 함수는 우리의 기준을 충족시킵니다. 간단한 수학적 표현 외에는 특별한 것이 없습니다.에이와이

시그 모이 드(에이)σ(에이)11+이자형에이

유용한 수학적 특성 (분화, 0과 1 사이의 경계 등), 계산 효율성 및 네트워크 가중치를 업데이트하면 최적화 목적으로 출력에 작지만 측정 가능한 변화가있을 수 있도록 올바른 기울기를 갖습니다.

결론

softmax와 sigmoid를 보여주는 @itdxer의 추론이 유효한 경우 동등한 지 확실하지 않지만, 더 적은 매개 변수와 계산이 필요하기 때문에 이진 분류기에 대해 2 개의 뉴런과 달리 1 뉴런을 선택하는 것이 옳습니다 . 나는 또한 "불필요하기 때문에"이진 분류기에 두 개의 뉴런을 사용하는 것에 대해 비판을 받았다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.