답변:
엄밀히 말하면, 신경망은 비선형 기능에 적합합니다.
적합한 활성화 함수를 선택하고 특정 조건을 준수하는 경우 확률 밀도 함수를 피팅하는 것으로 해석 할 수 있습니다 (값은 양수이고 1 등 이어야합니다 ). 그러나 그것은 실제로 무엇을하고 있는지가 아니라 결과를 해석하기 위해 어떻게 선택하는지에 대한 문제입니다. 후드 아래에서는 여전히 비선형 함수 추정기이며 PDF 추정의 특정 문제에 적용하도록 선택합니다.
일반적으로 신경망은 완전한 확률 밀도를 모델링하는 데 사용되지 않습니다. 그들의 분포는 분포의 평균을 결정하는 것입니다 (또는 결정적 상황에서 단순히 비선형 함수). 그럼에도 불구하고 신경망을 통해 완전한 확률 밀도를 모델링하는 것은 매우 가능합니다.
가우시안 경우에 네트워크의 다른 출력으로부터 하나 개의 출력과 편차로부터 평균을 방사하고 최소화하는 이것을 수행하는 한 가지 간단한 방법은 예를 들어 인 기능의 일부로서 일반적인 제곱 오차 대신 훈련 과정. 이것은 신경망에 대한 최대 가능성 절차입니다.
값을 입력으로 연결할 때마다이 네트워크를 학습 하면 μ 와 σ 가 주어 지며 전체 삼중 항 y , μ , σ 를 밀도 f ( y | x ) ∼ N ( μ , σ ) 를 사용하여 원하는 y 의 밀도 값을 구하십시오 . 이 단계 에서는 실제 도메인 손실 기능을 기반으로 사용할 y 값을 선택할 수 있습니다 . 한 가지 유념해야 할 것은위한 것입니다 μ 출력 활성화 그래서, 제한해야 당신이 방출 할 수 있음 - 를 + inf로 , σ 는 양의 유일한 활성화 여야합니다.
일반적으로 우리가 결정적인 기능이 아니라면 신경망에서 사용되는 표준 제곱 손실 훈련은 위에서 설명한 절차와 거의 같습니다. 후드 아래에있는 A 분포가 암시에 대한 배려없이 가정 σ 당신이주의 깊게 살펴보면 - 리터를 오 g N ( Y | X , μ , σ ) 에게 제곱 손실에 대한 식 (범 손실 가우스 최대 우도 추정기의 함수 ). 그러나이 시나리오에서는 y 대신새로운 x 값이 주어질 때마다 를 방출 할 수 있습니다 .
분류에 대한 출력이 될 것이다 대신 분포 G U S S I N 방출하는 단일 매개 변수를 갖는다. 다른 답변에서 지정된 것처럼이 매개 변수는 0 과 1 사이 이므로 출력 활성화가 적절해야합니다. 로지스틱 함수 또는 동일한 목적을 달성하는 다른 것이 될 수 있습니다.
보다 정교한 접근 방식은 Bishop의 Mixture Density Networks입니다. 자주 참조되는 논문에서 여기를 읽을 수 있습니다.
저의 반대 의견은 가장 인상적인 실제 응용 프로그램 (예를 들어 미디어에서 가장 많은 범위를 차지하는 응용 프로그램)에서 함수 나 확률이 아니라는 것입니다. 확률 적 의사 결정을 구현합니다.
표면적으로는 NN이 함수에 적합하고 범용 근사값을 대기시키는 것처럼 보입니다. 참조를 . 경우에 따라 특정 활성화 함수와 가우시안 오류와 같은 특정 가정이 사용되거나 Bayesian 네트워크에서 논문을 읽을 때 NN이 확률 분포를 생성 할 수 있습니다.
그러나 이것은 전부입니다. NN의 의도는 의사 결정을 모델링하는 것입니다. 자동차가 AI에 의해 구동 될 때, NN은 그 앞에 물체가있을 확률을 계산하려고하지 않고, 인간이 될 확률을 계산할 물체가 있다고 가정합니다. 센서 입력을 다양한 종류의 객체에 매핑하는 것도 계산하지 않습니다. 아니오, NN은 모든 방향에 따라 결정을 내리거나 계속 운전을 계속해야합니다. 그것은 확률을 계산하는 것이 아니라 자동차에게 무엇을해야하는지 알려주는 것입니다.