실수를 확률로 변환하기 위해 신경망에서 일반적으로 사용되는 softmax 함수는 열역학에서 주어진 온도 T에서 열 평형에서 입자의 앙상블에 대한 에너지에 대한 확률 분포 인 Boltzmann 분포와 동일한 기능입니다.
이것이 실용적인 이유에 대한 명확한 휴리스틱 이유를 볼 수 있습니다.
- 입력 값이 음수인지에 관계없이 softmax는 1에 해당하는 양수 값을 출력합니다.
- 항상 차별화가 가능하므로 역 전파에 편리합니다.
- 여기에는 네트워크가 작은 값으로 향하는 정도를 제어하는 '온도'매개 변수가 있습니다 (T가 매우 큰 경우 모든 결과는 매우 작을 때 입력이 가장 큰 값만 선택됨).
Boltzmann 함수는 실제적인 이유로 소프트 맥스로만 사용됩니까, 아니면 열역학 / 통계 물리학에 더 깊게 연결되어 있습니까?