9
표준 정규화와 달리 softmax를 사용하는 이유는 무엇입니까?
신경망의 출력 레이어에서 softmax 함수를 사용하여 확률 분포를 근사화하는 것이 일반적입니다. 지수로 인해 계산 비용이 많이 듭니다. 왜 모든 변환이 양수가되도록 Z 변환을 수행 한 다음 모든 출력을 모든 출력의 합으로 나눠서 정규화하지 않겠습니까?
수학은 프로그램 내에서 숫자를 조작하는 것과 관련이 있습니다. 일반적인 수학 관련 질문은 [math.stackexchange.com] (https://math.stackexchange.com/)에 문의하십시오. 참고 : 부동 소수점 계산에서 예기치 않은 결과에 대한 질문이 있으면 먼저 [부동 소수점 수학이 깨졌습니까?] (https://stackoverflow.com/q/588004/1679849)를 읽으십시오.