신경망은 함수 또는 확률 밀도 함수를 학습합니까?

통계적 추론과 신경망에 익숙하지 않기 때문에 질문이 조금 이상하게 들릴 수 있습니다.

신경망을 사용하는 분류 문제 에서 입력 의 공간을 출력 의 공간에 매핑 하는 함수 를 배우고 싶다고 말합니다 . $f^*$ $x$ $y$

f^{*} (x; θ) = y

$f^*(x; \theta) = y$

비선형 함수를 모델링하거나 확률 밀도 함수를 모델링하기 위해 모수 ( $\theta$ )를 피팅하고 있습니까?

나는 더 나은 방법으로 질문을 쓰는 법을 모른다. 나는 두 번 (확률 밀도 함수 또는 이와 같은 기능)을 여러 번 읽었으므로 혼란 스럽습니다.

machine-learning neural-networks

— 척수
소스

답변:

엄밀히 말하면, 신경망은 비선형 기능에 적합합니다.

적합한 활성화 함수를 선택하고 특정 조건을 준수하는 경우 확률 밀도 함수를 피팅하는 것으로 해석 할 수 있습니다 (값은 양수이고 1 등 이어야합니다 ). 그러나 그것은 실제로 무엇을하고 있는지가 아니라 결과를 해석하기 위해 어떻게 선택하는지에 대한 문제입니다. 후드 아래에서는 여전히 비선형 함수 추정기이며 PDF 추정의 특정 문제에 적용하도록 선택합니다. $\leq$

— 스 칸더 H.
소스

spdf는 1과 0 이외의 다른 값을 가질 수 있기 때문에 네트워크가 pdf를 시뮬레이션하기를 원한다면 실제로 임계 값을 사용 하지 않을 것입니다. 임계 값을 사용하면 간단한 분류 기가됩니다.

— Skander H.

이를 보는 올바른 방법은 임계 값이 네트워크에서 배운 내용의 외부 문제라는 것입니다. 이 차이를 존중하지 않으면 ML을 실제 문제에 적용하는 데 많은 문제가 발생합니다.

— Matthew Drury

그래 알았어 임계 값을 잊어 버린 다음 pdf를 모델링 할 것입니까? Bernouilli 분포 모델링에 대한 내용을 읽었으므로 임계 값과 혼동되었다고 생각합니다. 그러나 임계 값이 없으면 이미 Bernoilli입니까? 경우에 우리는 시그 모이 드 함수 활성화 개만 출력 노드를 갖도록하고자 확률 (P) 또는 (1-P)로 출력은 0 또는 1

— sdiabr

예, @CagdasOzgenc에게 감사드립니다. 다시 시도해 봅시다 : 출력 레이어에서 S 자형 함수를 사용하여 pdf를 직접 모델링하고 있습니까? 배운 것을 따라갈 수 있습니다.

— sdiabr

그러나 알려지지 않은 계수의 확률 분포에 대해 배우지 않으므로 사후 예측 분포에 대해 배우지 않습니다.

— Brash Equilibrium

일반적으로 신경망은 완전한 확률 밀도를 모델링하는 데 사용되지 않습니다. 그들의 분포는 분포의 평균을 결정하는 것입니다 (또는 결정적 상황에서 단순히 비선형 함수). 그럼에도 불구하고 신경망을 통해 완전한 확률 밀도를 모델링하는 것은 매우 가능합니다.

가우시안 경우에 네트워크의 다른 출력으로부터 하나 개의 출력과 편차로부터 평균을 방사하고 최소화하는 이것을 수행하는 한 가지 간단한 방법은 예를 들어 인 기능의 일부로서 일반적인 제곱 오차 대신 훈련 과정. 이것은 신경망에 대한 최대 가능성 절차입니다. $-log N(y | x ;\mu,\sigma)$

값을 입력으로 연결할 때마다이 네트워크를 학습 하면 와 가 주어 지며 전체 삼중 항 를 밀도 를 사용하여 원하는 의 밀도 값을 구하십시오 . 이 단계 에서는 실제 도메인 손실 기능을 기반으로 사용할 값을 선택할 수 있습니다 . 한 가지 유념해야 할 것은위한 것입니다 출력 활성화 그래서, 제한해야 당신이 방출 할 수 있음 $x$ $\mu$ $\sigma$ $y,\mu,\sigma$ $f(y|x)\sim N(\mu,\sigma)$ $y$ $y$ $\mu$ 를 , 는 양의 유일한 활성화 여야합니다. $-\inf$ $+\inf$ $\sigma$

일반적으로 우리가 결정적인 기능이 아니라면 신경망에서 사용되는 표준 제곱 손실 훈련은 위에서 설명한 절차와 거의 같습니다. 후드 아래에있는 A 분포가 암시에 대한 배려없이 가정 당신이주의 깊게 살펴보면 $Gaussian$ $\sigma$ $-log N(y|x;\mu,\sigma)$ 에게 제곱 손실에 대한 식 (범 손실 가우스 최대 우도 추정기의 함수 ). 그러나이 시나리오에서는 대신 $y$ 새로운 값이 주어질 때마다 를 방출 할 수 있습니다 . $\mu$ $x$

분류에 대한 출력이 될 것이다 대신 분포 방출하는 단일 매개 변수를 갖는다. 다른 답변에서 지정된 것처럼이 매개 변수는 과 사이 이므로 출력 활성화가 적절해야합니다. 로지스틱 함수 또는 동일한 목적을 달성하는 다른 것이 될 수 있습니다. $Bernoulli$ $Gaussian$ $0$ $1$

보다 정교한 접근 방식은 Bishop의 Mixture Density Networks입니다. 자주 참조되는 논문에서 여기를 읽을 수 있습니다.

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf

— 카 다스 오즈 겐크
소스

주교의 MDN을 인용하고 싶었다 ... 뉴럴 네트워크가 pdf를 출력하도록하는 또 다른 방법이있다. 물론 베이지안 패러다임이다. 그것에 대한 답변을 드리겠습니다.

— DeltaIV

서핑 밀도를 예측하는 데 사용되는 혼합 밀도 네트워크에 관한 또 다른 재미있는 논문 : icml.cc/Conferences/2005/proceedings/papers/…

— Matthew Drury

"전체 삼중 항 y, μ, σ"를 "전체 삼중 항 x, μ, σ"로 변경해야합니까?

— moh

@moh 아니. x가 주어지고 밀도에 나타나지 않습니다.

— Cagdas Ozgenc

저의 반대 의견은 가장 인상적인 실제 응용 프로그램 (예를 들어 미디어에서 가장 많은 범위를 차지하는 응용 프로그램)에서 함수 나 확률이 아니라는 것입니다. 확률 적 의사 결정을 구현합니다.

표면적으로는 NN이 함수에 적합하고 범용 근사값을 대기시키는 것처럼 보입니다. 참조를 . 경우에 따라 특정 활성화 함수와 가우시안 오류와 같은 특정 가정이 사용되거나 Bayesian 네트워크에서 논문을 읽을 때 NN이 확률 분포를 생성 할 수 있습니다.

그러나 이것은 전부입니다. NN의 의도는 의사 결정을 모델링하는 것입니다. 자동차가 AI에 의해 구동 될 때, NN은 그 앞에 물체가있을 확률을 계산하려고하지 않고, 인간이 될 확률을 계산할 물체가 있다고 가정합니다. 센서 입력을 다양한 종류의 객체에 매핑하는 것도 계산하지 않습니다. 아니오, NN은 모든 방향에 따라 결정을 내리거나 계속 운전을 계속해야합니다. 그것은 확률을 계산하는 것이 아니라 자동차에게 무엇을해야하는지 알려주는 것입니다.

— 악사 칼
소스