ML의 softmax 기능과 열역학의 Boltzmann 분포 사이의 연결은 얼마나 깊습니까?


12

실수를 확률로 변환하기 위해 신경망에서 일반적으로 사용되는 softmax 함수는 열역학에서 주어진 온도 T에서 열 평형에서 입자의 앙상블에 대한 에너지에 대한 확률 분포 인 Boltzmann 분포와 동일한 기능입니다.

이것이 실용적인 이유에 대한 명확한 휴리스틱 이유를 볼 수 있습니다.

  • 입력 값이 음수인지에 관계없이 softmax는 1에 해당하는 양수 값을 출력합니다.
  • 항상 차별화가 가능하므로 역 전파에 편리합니다.
  • 여기에는 네트워크가 작은 값으로 향하는 정도를 제어하는 ​​'온도'매개 변수가 있습니다 (T가 매우 큰 경우 모든 결과는 매우 작을 때 입력이 가장 큰 값만 선택됨).

Boltzmann 함수는 실제적인 이유로 소프트 맥스로만 사용됩니까, 아니면 열역학 / 통계 물리학에 더 깊게 연결되어 있습니까?


1
이것이 왜 찬성 투표를하는 지 모르겠습니다. 그것은 완전히 합리적인 질문입니다.
매트 크라우스

2
+1에서 @MattKrause로 —NN은 통계 물리학에서와 마찬가지로 주제에 관한 주제입니다.
Sean Easter

문제에 대한 해결책을 찾지 않고 더 일반적인 지식이라는 점에서 질문이 대부분의 SO 질문보다 어떻게 '공개적'인지 알 수 있습니다. 그러나 더 좋은 곳이나 더 구체적인 방법을 생각할 수 없었습니다.
ahura

답변:


3

내가 아는 한, 퍼셉트론 단계를 넘어 ANN을 선택한 많은 사람들이 물리학 자라는 사실 외에는 더 깊은 이유가 없다.

언급 된 이점 외에도이 특정 선택에는 더 많은 이점이 있습니다. 언급했듯이 출력 동작을 결정하는 단일 매개 변수가 있습니다. 그 자체로 최적화하거나 조정할 수 있습니다.

요컨대, 가장 큰 입력 값조차도 제한된다는 의미에서 일종의 '정규화'를 달성하는 매우 편리하고 잘 알려진 기능입니다.

물론 동일한 요구 사항을 충족시키는 다른 많은 기능이 있지만 물리 세계에서는 잘 알려져 있지 않습니다. 그리고 대부분의 경우 사용하기가 어렵습니다.


2

softmax 함수는 이산 선택 모델링에서도 사용되며, 각 클래스와 관련된 유틸리티 함수가 있다고 가정하고 유틸리티 함수가 신경망의 출력 + Gumbel 다음의 오류 용어와 같다고 가정하면 로짓 모델과 동일합니다. 분포에 따라 클래스에 속할 확률은 신경망을 입력으로 사용하는 softmax 함수와 같습니다. 참조 : https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

오류 조건이 표준 정규 분포를 따르는 것으로 가정되는 프로 빗 모델과 같은 로짓 모델에 대한 대안이 있습니다. 이는 더 나은 가정입니다. 그러나 그 가능성은 다루기 힘들고 계산하기에 계산 비용이 많이 들기 때문에 신경망에서는 일반적으로 사용되지 않습니다

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.