이 질문은 매우 흥미 롭습니다. 나는 정확한 이유를 모르지만 지수 함수의 사용법을 설명하는 데 다음 이유가 사용될 수 있다고 생각합니다. 이 게시물은 통계 역학과 최대 엔트로피 원리에서 영감을 얻었습니다.
I는 함께 예를 사용하여 설명한다 엔 의해 구성되는 이미지, 엔1 클래스에서 화상 기음1 , 엔2 클래스에서 이미지 기음2 , ..., 및 엔케이 클래스에서 이미지 기음케이 . 그런 다음 신경망이 이미지에 비선형 변환을 적용 할 수 있다고 가정 하여 모든 클래스에 '에너지 수준' 이자형케이 를 할당 할 수 있습니다. 이 에너지는 이미지를 선형 적으로 분리 할 수있는 비선형 스케일에 있다고 가정합니다.
평균 에너지 이자형¯ 는 다음 관계
N ˉ E = K ∑ k = 1 n k E k로 다른 에너지 이자형케이 와 관련됩니다 .엔이자형¯= ∑k = 1케이엔케이이자형케이.( ※ )
동시에 총 이미지 양을 다음 합계로 계산할 수 있습니다.
엔= ∑k = 1케이엔케이.( ※ ∗ )
최대 엔트로피 원리의 주요 아이디어는 해당 클래스의 이미지 수가 주어진 에너지 분포에 대해 가능한 조합의 수가 최대화되도록 분포된다는 것입니다. 더 간단히 말해서 시스템은 클래스 엔1 만 있는 상태가되지 않을 것입니다. 또한 각 클래스에 동일한 수의 이미지가있는 상태도되지 않습니다. 그러나 왜 그렇습니까? 모든 이미지가 한 클래스에 있으면 시스템의 엔트로피가 매우 낮습니다. 두 번째 경우도 매우 부 자연스러운 상황입니다. 중간 정도의 에너지로 더 많은 이미지를, 매우 높고 매우 낮은 에너지로 더 적은 이미지를 가질 가능성이 높습니다.
엔트로피는 엔 이미지를 상응하는 에너지 로 엔1 , 엔2 , ..., 엔케이 이미지 클래스 로 분할 할 수있는 조합 수에 따라 증가합니다 . 이 조합 수는 다항식 계수로 제공됩니다.
( N!엔1! , n2! , … , n케이!) = N!∏케이k = 1엔케이!.
엔→ ∞( ※ )( ※ ∗ )βαL ( n1, n2, … , n케이; α , β)
L ( n1, n2, … , n케이; α , β) = N!∏케이k = 1엔케이!+ β[ ∑k = 1케이엔케이이자형케이− N이자형¯] +α [ N− ∑k = 1케이엔케이]
엔→ ∞엔케이→ ∞
ln아니 ! = n lnn - n + O ( lnn ) .
ln아니 !n → ∞
엔케이~
∂엘∂엔케이~= − ln엔케이~− 1 − α + β이자형케이~.
이 부분 도함수를 0으로 설정하면
엔케이~= 특급( β이자형케이~)특급( 1 + α ).( * * * )
( ※ ∗ )
특급( 1 + α ) = 1엔∑k = 1케이특급( β이자형케이) .
( * * * )
엔케이~= 특급( β이자형케이~)1엔∑케이k = 1특급( β이자형케이).
엔케이~/ N기음케이~피케이~
피케이~= 특급( β이자형케이~)∑케이k = 1특급( β이자형케이).
β이자형케이~= w티케이엑스케이일