독립적 인 관측치 이 주어진 것으로 알고 최우 추정기 (또는 평면과 등가의 MAP / 균일 종래)인지 식별 파라미터 \ mathbf {θ} 모델 분포 생성 P_ {모델} \ 이러한 관측치와 가장 일치하는 left (\, \ cdot \,; \ mathbf {θ} \ right)O = { O ( 1 ) , . . . , o ( m ) }
또는 더 편리하게
그리고 그 역할 참조 멀티 클래스에 대한 깊은 신경 네트워크를 손실 함수를 정의에서 재생할 수있는 하여 네트워크의 학습 가능한 매개 변수 (예를 들어,에 해당하는 관측 값은 입력 활성화 쌍 및 해당하는 올바른 클래스 레이블 , = { }
내가 이해하지 못하는 것은 이것이 (벡터화 된) 올바른 출력 \ mathbf {y} ^ {(i)}의 소위 "교차 엔트로피" 및
"확률로"활성화
MLE과 교차 엔트로피 간의 관계를 설정하는 단계 중 하나는 출력 활성화를 "있는 것처럼"사용하는 것입니다. 그러나 그들이 또는 적어도 그들이 모두 있다는 것은 분명하지 않습니다 .
훈련 오류를 계산할 때, 특히 "교차 엔트로피 손실"이라고 부를 때 (활성화를 정규화 한 후 1로 합산)
또는
우리가 쓸 수 있도록
따라서
그러나 이것은 확실히 확률을 만들지 만 (물론 어느 정도까지) 다른 활성화에는 제한이 없습니다.
이 경우 실제로 PMF라고 할 수 있습니까? 가 실제로 확률이 아니며 단순히 "좋아요" 만드는 것이 있습니까? )?
분류에 대한 제한
MLE와 교차 엔트로피를 동일시하는 위의 중요한 단계 는 (단일 레이블) 멀티 클래스 학습 문제를 특징 짓는 의 "one-hot"구조에 전적으로 의존합니다 . 대한 다른 구조 는 에서 하는 것을 불가능하게합니다 .
MLE 및 교차 엔트로피 최소화 방정식이 이 "일대일"인 경우로 제한됩니까?
다른 훈련 및 예측 확률
예측하는 동안 거의 항상
신뢰할 수있는 경우가 아니라면 훈련 중에 배운 확률과 다른 정확한 예측 확률이 발생합니다.
이 사건이 확실합니까? 적어도 대략 사실일까요? 또는 레이블 위치에서 학습 된 활성화 값 의이 방정식을 정당화하는 다른 주장 이 있습니까? 학습 된 활성화 의 최대 값 이 발생할 가능성이 있습니까?
엔트로피와 정보 이론
위의 문제가 해결되고 활성화가 유효한 PMF (또는 이와 같이 의미있는 것으로 취급 될 수 있음)라고 가정하더라도 계산 에서 교차 엔트로피가 수행하는 역할 은 문제가되지 않습니다. Shanon 엔트로피 가 특정에 적용되기 때문에 의 엔트로피에 대해 이야기하는 것이 왜 도움이되거나 의미가 있는가 어떤 인코딩 네트워크 훈련에 사용되는 하나하지 않다.
정보 이론적 엔트로피는 (MLE에 해당하는) 하나를 계산하기위한 도구를 단순히 크로스 엔트로피 형태로 제공하는 것과는 달리 비용 함수를 해석하는 데 어떤 역할을합니까?
softmax_cross_entropy_with_logits
것입니다 : 따라서 은 확률을 생성하도록 (적어도 레이블 위치에서) 생성되도록 설계된 네트워크를 정의합니다. 아니? θ M L ( O )