및

12

배경 : 저는 Ian Goodfellow와 Yoshua Bengio, Aaron Courville의 딥 러닝 6 장을 공부하고 있습니다. 섹션 6.2.2.2 ( 여기에서 볼 수있는 183의 183 페이지 182 )에서 출력 에 시그 모이 드를 사용하는 것이 동기가됩니다. $P(y=1|x)$

재료를 요약 하기 위해 활성화가 적용되기 전에 출력 뉴런으로 설정합니다. 여기서 는 이전 숨겨진 레이어의 출력이고, 는 가중치 벡터이며 는 스칼라 바이어스입니다. 입력 벡터는 (이는 의 함수 임)로 표시되고 출력 값은 로 표시 됩니다. 여기서 는 시그 모이 드 함수입니다. 이 책 은 값 사용하여 대한 확률 분포를 정의하려고합니다.

z = w^{T} h + b

$z = w^Th+b$

h

$h$

w

$w$

b

$b$

x

$x$

h

$h$

y = ϕ (z)

$y=\phi(z)$

ϕ

$\phi$

y

$y$

z

$z$ . 183 쪽 둘째 단락에서 :

값 사용하여 대한 확률 분포를 정의하는 방법을 논의하기 위해 대한 의존성을 생략합니다 . 시그 모이 드는 1이 아닌 정규화되지 않은 확률 분포 를 구성하여 동기를 부여 할 수 있습니다. 그런 다음 유효한 확률 분포를 얻기 위해 적절한 상수로 나눌 수 있습니다. 정규화되지 않은 로그 확률이 및 에서 선형이라는 가정으로 시작 하면 정규화되지 않은 확률을 얻기 위해 지수화 할 수 있습니다. 우리는 다음 평준화 수율이 Z의 시그 모이 드 변환 제어 베르누이 분포가 있는지 : $x$ $y$ $z$ $\tilde P(y)$ $y$ $z$
$\begin{aligned} \log \tilde{P} (y) & = y z \\ \tilde{P} (y) & = \exp (y z) \\ P (y) & = \frac{\exp (y z)}{\sum_{y^{'} = 0}^{1} \exp (y^{'} z)} \\ P (y) & = ϕ ((2 y - 1) z) \end{aligned}$ $\begin{align} \log\tilde P(y) &= yz \\ \tilde P(y) &= \exp(yz) \\ P(y) &= \frac{\exp(yz)}{\sum_{y'=0}^1 \exp(y'z) } \\ P(y) &= \phi((2y-1)z) \end{align}$

질문 : 두 가지, 특히 첫 번째에 대해 혼란스러워합니다.

초기 가정은 어디에서 오는가? 정규화되지 않은 로그 확률이 와 에서 선형 인 이유는 무엇 입니까? 저자가 시작한 방법에 대한 누군가를 제안 할 수 있습니까 ? $y$ $z$ $\log\tilde P(y) = yz$
마지막 줄은 어떻게됩니까?

neural-networks deep-learning

— HBeel
소스

8

두 가지 가능한 결과가 있습니다 . 이 속성은 곱셈의 의미를 변경하기 때문에 매우 중요합니다. 가능한 두 가지 경우가 있습니다. $y \in \{0, 1\}$

\begin{aligned} \log \tilde{P} (y = 1) & = z \\ \log \tilde{P} (y = 0) & = 0 \end{aligned}

$\begin{align} \log\tilde P(y=1) &= z \\ \log\tilde P(y=0) &= 0 \\ \end{align}$

$y=0$ $y=1$ $y=0$

다음으로 정규화되지 않은 확률을 얻기 위해 비정규 화 된 로그 확률에 지수를 적용합니다.

\begin{aligned} \tilde{P} (y = 1) & = e^{z} \\ \tilde{P} (y = 0) & = e^{0} = 1 \end{aligned}

$\begin{align} \tilde P(y=1) &= e ^ z \\ \tilde P(y=0) &= e ^ 0 = 1 \end{align}$

다음으로 각 정규화되지 않은 확률을 가능한 모든 정규화되지 않은 확률의 합으로 나누는 확률을 정규화합니다.

\begin{aligned} P (y = 1) = \frac{e^{z}}{1 + e^{z}} \\ P (y = 0) = \frac{1}{1 + e^{z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} \\ P(y=0) = \frac{1}{1 + e ^ z} \end{align}$

$P(y=1)$

\begin{aligned} P (y = 1) = \frac{e^{x}}{1 + e^{x}} = \frac{1}{\frac{e^{x} + 1}{e^{x}}} = \frac{1}{1 + \frac{1}{e^{x}}} = \frac{1}{1 + e^{- x}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ x}{1 + e ^ x} = \frac{1}{\frac{e ^ x + 1}{e ^ x}} = \frac{1}{1 + \frac{1}{e ^ x}} = \frac{1}{1 + e ^ {-x}} \end{align}$

$(2y−1)$ $0$ $-1$ $1$ $1$

P (y) = σ ((2 y - 1) z) = {\begin{cases} σ (z) = \frac{1}{1 + e^{- z}} = \frac{e^{z}}{1 + e^{z}} & when y = 1 \\ σ (- z) = \frac{1}{1 + e^{- (- z)}} = \frac{1}{1 + e^{z}} & when y = 0 \end{cases}

$P(y) = \sigma((2y - 1)z) = \begin{cases} \sigma(z) = \frac{1}{1 + e ^ {-z}} = \frac{e ^ z}{1 + e ^ z} & \text{when } y = 1 \\ \sigma(-z) = \frac{1}{1 + e ^ {-(-z)}} = \frac{1}{1 + e ^ z} & \text{when } y = 0 \\ \end{cases}$

우리가 볼 수 있듯이, 그것은 사이의 관계를 보여주는 방법입니다. $\sigma$ $P(y)$

— itdxer
소스

y = 0

$y=0$

y = 1

$y=1$

y = 1

$y=1$

y \times z

$y\times z$

y

$y$

z

$z$

a y + b z + c

$ay + bz + c$

\log

$\log$

y z

$yz$

실제로 흥미로운 질문입니다. 처음으로 질문을 읽을 때이 진술에주의를 기울이지 않았습니다. 이제 나에게도 이상하게 보입니다. 한 가지 문제는 y 이진 변수이며 이러한 상황에서 선형 함수의 속성을 확인하는 방법을 잘 모르겠다는 것입니다. 별도의 질문을한다면 이해가 될 것 같습니다. 아마도 누군가가 왜 이런 식으로 쓰여 졌는지 설명 할 수있을 것입니다.

— itdxer

2

나는 또한이 책의 일부를 따라 가기가 어렵다는 것을 알고, itdxer의 위의 대답은 확률과 수학 사고에 제대로 유창하지 않은 사람에게도 이해할 시간이 충분합니다. 그러나 답을 거꾸로 읽었으므로 z의 sigmoid로 시작하십시오.

\begin{aligned} P (y = 1) = \frac{e^{z}}{1 + e^{z}} = \frac{1}{1 + e^{- z}} \end{aligned}

$\begin{align} P(y=1) = \frac{e ^ z}{1 + e ^ z} = \frac{1}{1 + e ^ {-z}} \end{align}$

다시 따라하려고 노력하십시오.

\begin{aligned} \log \tilde{P} (y) & = y z \end{aligned}

$\begin{align} \log\tilde P(y) &= yz \end{align}$

그런 다음 왜 그들이 yz로 설명을 시작했는지 이해하는 것입니다. 최종 설계와 동일합니다.

\begin{aligned} σ ((2 y - 1) z) \end{aligned}

$\begin{align} \sigma((2y-1)z) \end{align}$

구성에 의해 Bernoulli 하에서 y의 유일한 가능한 값인 y = 0에 대해 -1을, y = 1에 대해 1을 얻을 수 있습니다.

— 야 aku 주렉
소스

0

다음은 이론적 인 배경을 가진 사람들에게 호소력이있는 공식적인 표현입니다.

$Y$ $P_Y$ $y\in \{0,1\}$ $P_Y(y)=P(Y=y)$ $\tilde P_Y$

다음과 같은 의미의 연쇄가 있습니다.

\begin{aligned} \log {\tilde{P}}_{Y} (y) = y z & ⟹ {\tilde{P}}_{Y} (y) = \exp (y z) \\ ⟹ P_{Y} (y) = \frac{e^{y z}}{e^{0 \cdot z} + e^{1 \cdot z}} = \frac{e^{y z}}{1 + e^{z}} \\ ⟹ P_{Y} (y) = y \frac{e^{z}}{1 + e^{z}} + (1 - y) \frac{1}{1 + e^{z}} \\ ⟹ P_{Y} (y) = y σ (z) + (1 - y) σ (- z) \\ ⟹ P_{Y} (y) = σ ((2 y - 1) z) \end{aligned}

$\begin{aligned} \log \tilde P_Y(y)=yz &\implies \tilde P_Y(y) = \exp(yz)\\ &\implies P_Y(y) = \frac{e^{yz}}{e^{0\cdot z}+e^{1\cdot z}}=\frac{e^{yz}}{1+e^{ z}}\\ &\implies P_Y(y) =y\frac{e^{z}}{1+e^{ z}} + (1-y)\frac{1}{1+e^{ z}}\\ &\implies P_Y(y) =y\sigma(z) + (1-y)\sigma(-z)\\ &\implies P_Y(y) = \sigma((2y-1)z) \end{aligned}$

마지막 동등성은 현명하게 매핑하는 방법입니다 $\{0,1\}$ $\{-1,1\}$

— 가브리엘 로몬
소스