( )가 0이 될 수 있는 문제가 ?yilog(yi)
예, 이 정의되어 있지 않기 때문에 실제로는 을 사용하여이 문제를 피할 수 있습니다.log(0)log(yi+ϵ)
맞습니까?
(a) 또는
(b) ?Hy′(y):=−∑iy′ilog(yi)
Hy′(y):=−∑i(y′ilog(yi)+(1−y′i)log(1−yi))
(a) 멀티 클래스 예측에 정확 (실제로 이중 합산), (b)는 2 클래스 예측에 대한 (a)와 동일합니다. 둘 다 교차 엔트로피입니다.
예:
각 학습 데이터 에 레이블 이 있고 모델이 예측 합니다.xic′i∈{0,1}ci∈[0,1]
5 개의 데이터 포인트의 경우, 실제 레이블 및 모델 예측 는 다음과 같습니다. c′ici
(c′i,ci)={(0,0.1),(0,0.4),(0,0.8),(1,0.8),(1,0.2)} (1),
벡터 및 과 같이 정의하십시오.y′iyi
y′ik:=1 인 경우 , 그렇지 않으면 c′i=k:=0
yik:=p(k|xi) 는 가 클래스 속할 확률이며 , 모델별로 추정됩니다.xik
표기법의 예 (1) 은 다음과 같습니다. (y′i,yi)
(y′i,yi)={([1,0],[0.9,0.1]), ([1,0],[0.6,0.4]), ([1,0],[0.2,0.8]), ([0,1],[0.2,0.8]), ([0,1],[0.8,0.2])} ,
(a)와 (b)는 다음과 같이 계산됩니다.
Hy′(y)=−1/5([log(0.9)+log(0.6)+log(0.2)]ci=0+[log(0.8)+log(0.2)]ci=1)=0.352
유도:
클래스 에서 까지 여러 클래스가 있다고 가정하십시오 .
트레이닝 포인트 , 는 와 같 으며 위치 에서 1 이고 다른 곳에서는 0입니다. 때 , 우리는 모델의 출력 할 따라서 1에 근접하기를, 손실 로 정의 할 수 은 합니다. 모든 클래스의 손실은 다음과 같이 결합 될 수 있습니다.1K
(xi,c′i)c′i=ky′i=[0,..,1,0,..]kthy′ik=1yik=p(k|xi)(xi,k)−log(yik)yik→1⇒−log(yik)→0
L(y′i,yi)=−∑Kk=1y′iklog(yik) .
경우 , 다른 모든 종류의 손실 로 비활성화 , 예를 들어, 진정한 라벨 그래서 , 손실 것 있다,이다:y′ik=1k′≠k0log(yik′)=0y′im=1
L(y′i,yi)=−log(yim) 입니다.
모든 교육 포인트에 대한 최종 공식은 다음과 같습니다.
Hy′(y)=−∑(xi,y′i)∑Kk=1y′iklog(yik) .
이진 분류의 경우 (실제 레이블) 및 (모델 예측)이 있으므로 (a)는 다음과 같이 다시 작성할 수 있습니다.y′i0=1−y′i1yi0=1−yi1
Hy′(y)=−∑(xi,y′i)y′i1log(yi1)+y′i0log(yi0)=−∑(xi,y′i)y′i1log(yi1)+(1−y′i1)log(1−yi1)
이는 (b)와 동일합니다.
클래스 간 교차 엔트로피 (a) (1 개의 요약)
클래스에 대한 교차 엔트로피 (a)는 다음과 같습니다.
Hy′(y)=−∑Kk=1y′klog(yk) ,
이 버전은 분류 작업에 사용할 수 없습니다. 이전 예제의 데이터를 재사용 할 수 있습니다.
(c′i,ci)={(0,0.1),(0,0.4),(0,0.8),(1,0.8),(1,0.2)}
경험적 클래스 확률은 이고 .y′0=3/5=0.6y′1=0.4
모형으로 추정되는 클래스 확률은 이고y0=3/5=0.6y1=0.4
(a)는 됩니다.−y′0logy0−y′1logy1=−0.6log(0.6)−0.4log(0.4)=0.292
두 개의 데이터 포인트 및 는 미스 분류되지만 및 은 올바르게 추정됩니다!(0,0.8)(1,0.2)y′0y′1
:으로 정확하게 분류 된 모든 5 점 경우 ,
(c′i,ci)={(0,0.1),(0,0.4),(0,0.2),(1,0.8),(1,0.8)}
이후 (a) 여전히 동일하게 유지 다시 다음과 같이 추정된다 .y′0y0=3/5