기계 학습 문헌에서 확률 분포를 나타 내기 위해 softmax 함수가 종종 사용됩니다. 이것에 대한 이유가 있습니까? 왜 다른 기능을 사용하지 않습니까?
기계 학습 문헌에서 확률 분포를 나타 내기 위해 softmax 함수가 종종 사용됩니다. 이것에 대한 이유가 있습니까? 왜 다른 기능을 사용하지 않습니까?
답변:
최적화 관점에서 볼 때 차별화 측면에서 멋진 속성이 있습니다. 많은 기계 학습 문제의 경우 1-N 분류에 적합합니다.
딥 러닝 관점에서 : 이론상으로, 소프트 맥스 분류 기가 위에있는 딥 네트워크를 사용하면 MLP가 범용 근사 특성을 가지므로 피쳐 공간에 대한 N 클래스 확률 함수를 나타낼 수 있다고 주장 할 수 있습니다 .
Softmax는 또한 로지스틱 시그 모이 드 함수의 일반화이므로 분화의 용이성과 0-1 범위에있는 시그 모이 드의 특성을 전달합니다. 로지스틱 시그 모이 드 함수의 출력도 0과 1 사이이므로 자연스럽게 확률을 나타내는 데 적합한 선택입니다. 그것의 파생 상품은 자체 출력 측면에서 압축됩니다. 그러나 함수에 벡터 출력이있는 경우 출력 벡터에 대한 확률 분포를 얻으려면 Softmax 함수를 사용해야합니다. Softmax는 신경망에만 사용되는 기능이 아니기 때문에 Universal Approximation 이론과 관련이있는 것은 아니지만 Indie AI가 언급 한 Softmax 사용의 다른 이점도 있습니다.
참고 문헌