출력 레이어의 교차 엔트로피 또는 로그 가능성


31

이 페이지를 읽었습니다 : http://neuralnetworksanddeeplearning.com/chap3.html

교차 엔트로피를 갖는 시그 모이 드 출력층은 로그 우도를 갖는 소프트 맥스 출력층과 상당히 유사하다고 말했다.

출력 레이어에서 로그 가능성이있는 시그 모이 드 또는 교차 엔트로피가있는 소프트 맥스를 사용하면 어떻게됩니까? 괜찮아? becuase 나는 교차 엔트로피 (eq.57) 사이에 방정식의 차이가 거의 없다는 것을 알았습니다.

C=1nx(ylna+(1y)ln(1a))

및 로그 우도 (eq.80) :

C=1nx(lnayL)

답변:


51

음의 로그 우도 (eq.80)는 다중 클래스 교차 엔트로피 (참조 : 패턴 인식 및 기계 학습 섹션 4.3.4)로도 알려져 있습니다. 사실 동일한 공식에 대한 두 가지 다른 해석이기 때문입니다.

eq.57은 Bernoulli 분포의 음의 로그 가능성이고, eq.80은 관측치가 하나 인 다항식 분포의 음의 로그 가능성입니다 (Beroulli의 다중 클래스 버전).

이진 분류 문제의 경우, softmax 함수 는 각 클래스의 예측을 제공하기 위해 값 (0과 1 사이에서 합계 1)을 출력 합니다. sigmoid 함수 는 한 클래스의 예측을 제공하기 위해 하나의 값 (0과 1 사이)을 출력하지만 다른 클래스는 1-p입니다.

따라서 eq.80은 sigmoid 출력에 직접 적용 할 수 없지만 eq.57과 본질적으로 동일한 손실입니다.

이 답변 도 참조하십시오 .


다음은 이진 분류 문제에 대한 (sigmoid + binary cross-entropy)와 (softmax + multiclass cross-entropy) 간의 연결에 대한 간단한 그림입니다.

두 가지 범주의 분리 점으로 를 취한다고합시다 .0.5

σ(엑스+)=0.5
엑스+=0
이것은 피쳐 공간의 결정 경계입니다.

softmax 출력의 경우 이므로 두 배의 매개 변수가 있지만 동일한 모델로 유지됩니다.ew1x+b1=ew2x+b2w1x+b1=w2x+b2(w1-w2)x+(b1b2)

이자형1엑스+1이자형1엑스+1+이자형2엑스+2=0.5
이자형1엑스+1=이자형2엑스+2
1엑스+1=2엑스+2
(12)엑스+(12)=0

다음은이 두 가지 방법을 사용하여 얻은 의사 결정 경계를 보여줍니다.


어떤 방정식을 언급하고 있습니까? 이 책에서 방정식은 다르게 번호가 매겨집니다. 아마도이 책의 특정 판일까요? 이것을 명확히 할 수 있습니까? users.isr.ist.utl.pt/~wurmd/Livros/school/… , 페이지 209 (4.3.4 단원) 에서 책을보고 있습니다.
nbro

@nbro 아 혼란을 드려 죄송합니다, 나는 질문에 주어진 링크 된 페이지의 방정식을 의미했습니다.
dontloo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.