신경망에서의 교차 엔트로피 비용 함수


11

이 자습서 에서 볼 수있는 교차 엔트로피 비용 함수를보고 있습니다 .

C=1nx[ylna+(1y)ln(1a)]

정확히 무엇을 요약합니까? 그것은 이상 물론, ,하지만 와 변경되지 않습니다 . 의 모든 의는 하나에 입력입니다 . 는 방정식 위의 단락에서 모든 와 의 합의 함수로 정의되기도합니다 . xyaxxaawx

또한 은이 특정 뉴런에 대한 입력 수로 정의됩니다. 맞습니까? 그것은으로 모호하게한다 "훈련 데이터의 총 항목 수" .n


편집하다:

내가 생각하는 것이 맞습니까?

C=1nx[ylna+(1y)ln(1a)]

전체 네트워크의 비용 함수가되는 반면

C=[ylna+(1y)ln(1a)]

개별 뉴런의 비용은 얼마입니까? 합계가 각 출력 뉴런 위에 있어야합니까?

답변:


14

교차 엔트로피 손실을 표현하는 방법은 다음과 같습니다 .

L(X,Y)=1ni=1ny(i)lna(x(i))+(1y(i))ln(1a(x(i)))

여기서 는 학습 데이터 집합의 입력 예제 집합이며 는 해당 입력 예에 해당하는 레이블 세트입니다. 신경망 주어진 입력의 출력을 나타내고 .X={x(1),,x(n)}Y={y(1),,y(n)}a(x)x

각각의 0 또는 1이고, 활성화 출력 통상적으로 이용하여 개방 구간 (0, 1)로 제한된다 물류를 S 자형 . 예를 들어, 로지스틱 회귀에 해당하는 1 계층 네트워크의 경우 활성화는 로 주어집니다 여기서 는 a 가중치 행렬 및 는 바이어스 벡터입니다. 여러 계층의 경우 활성화 기능을 여기서 와 는 첫 번째 레이어의 가중치 행렬 및 바이어스이며y(i)a(x)

a(x)=11+eWxb
Wb
a(x)=11+eWz(x)bz(x)=11+eVxc
Vcz(x) 네트워크에서 숨겨진 계층의 활성화입니다.

나는 Andrew Ng의 기계 학습 과정에서 매우 효과적이라는 것을 알기 때문에 예를 나타 내기 위해 (i) 위첨자를 사용했습니다. 때로는 사람들이 예제를 행렬의 열이나 행으로 표현하지만 아이디어는 동일하게 유지됩니다.


감사! 따라서 이것은 모든 샘플에서 전체 네트워크에 대한 오류 번호를 제공합니다. 역 전파를 위해서는 최종 레이어의 가중치 행렬에서이 함수의 부분 미분을 찾아야합니다. 어떻게해야합니까?
Adam12344

백프로 프를하는 것은 웜의 분리 된 캔입니다! 귀하가 링크 한 페이지에 컴퓨팅 파생물 등에 대한 설명이 있으며 스택 오버 플로우 및이 사이트의 백프로 프에 대한 많은 질문이 있습니다. 약간 둘러보고 backprop에 대한 별도의 질문을 게시하십시오.
lmjohns3

이것은 백프로 프를 이해하는 데 도움이 될 수 있습니다. 그것은 세부 사항에서 교차 엔트로피 손실을 갖는 4 층 신경망을 가진 백 프롭을 통과합니다 :) cookedsashimi.wordpress.com/2017/05/06/…
YellowPillow

5

정확히 무엇을 요약합니까?

튜토리얼은 실제로 매우 명시 적입니다.

... 은 교육 데이터의 총 항목 수이며, 합계는 모든 교육 입력에 대한 것입니다 ...n

튜토리얼 (식 57)에 주어진 원래의 단일 뉴런 비용 함수 는 아래에 첨자를 가지고 있습니다. 단일 신경 세포의 경우에 아무것도 계산할 때 우리는 이미 모든 입력 가중치 합산하기 때문에, 훈련 예 외에 이상 합계 다른 사람이 없다 :xΣa

a=jwjxj.

같은 튜토리얼에서 나중에 Nielsen은 멀티 레이어, 다중 뉴런 네트워크 (수식 63)에 대한 비용 함수에 대한 표현을 제공합니다.

C=1nxj[yjlnajL+(1yj)ln(1ajL)].

이 경우 합은 출력 예 ( 's) 에서 훈련 예 ( 's)와 개별 뉴런 모두에 적용 됩니다.jxj


통찰력, 하나의 질문에 감사드립니다. 후자는 정의한 교차 엔트로피가 아닙니다.
Tommaso Guerrini

그는 또한 그의 튜토리얼에서 "y는 때때로 0과 1 사이의 중간 값을 취할 수있다"고 말했지만 그가 준 기능은 모두 y에 있고 활성화 입력은 없었다. st 함수에서 중간 값을 어떻게 구현할 수 있습니까?
Feras

단일 레이어 퍼셉트론을 보여주는 Nielsen의 자습서에서는 = \ sum_ {j}가 아니라 출력 레이어에 대한 S 자형 활성화 기능이 있기 때문에 a = \ sigma (\ sum_ {j} w_j x_j)입니다. w_j x_j
ARAT
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.