12

배경 : 저는 Ian Goodfellow와 Yoshua Bengio, Aaron Courville의 딥 러닝 6 장을 공부하고 있습니다. 섹션 6.2.2.2 ( 여기에서 볼 수있는 183의 183 페이지 182 )에서 출력 에 시그 모이 드를 사용하는 것이 동기가됩니다.P(y=1|x)

재료를 요약 하기 위해 활성화가 적용되기 전에 출력 뉴런으로 설정합니다. 여기서 h 는 이전 숨겨진 레이어의 출력이고, w 는 가중치 벡터이며 b 는 스칼라 바이어스입니다. 입력 벡터는 x (이는 h 의 함수 임)로 표시되고 출력 값은 y = ϕ ( z ) 로 표시 됩니다. 여기서 ϕ 는 시그 모이 드 함수입니다. 이 책 은 값 z를 사용하여 y에 대한 확률 분포를 정의하려고합니다.

z=wTh+b
hwbxhy=ϕ(z)ϕyz. 183 쪽 둘째 단락에서 :

z를 사용하여 y에 대한 확률 분포를 정의하는 방법을 논의하기 위해 대한 의존성을 생략합니다 . 시그 모이 드는 1이 아닌 정규화되지 않은 확률 분포 ~ P ( y ) 를 구성하여 동기를 부여 할 수 있습니다. 그런 다음 유효한 확률 분포를 얻기 위해 적절한 상수로 나눌 수 있습니다. 정규화되지 않은 로그 확률이 yz 에서 선형이라는 가정으로 시작 하면 정규화되지 않은 확률을 얻기 위해 지수화 할 수 있습니다. 우리는 다음 평준화 수율이 Z의 시그 모이 드 변환 제어 베르누이 분포가 있는지 : 로그 ~xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

질문 : 두 가지, 특히 첫 번째에 대해 혼란스러워합니다.

  1. 초기 가정은 어디에서 오는가? 정규화되지 않은 로그 확률이 z 에서 선형 인 이유는 무엇 입니까? 저자가 log ~ P ( y ) = y z로 시작한 방법에 대한 누군가를 제안 할 수 있습니까 ?yzlogP~(y)=yz
  2. 마지막 줄은 어떻게됩니까?

답변:


8

대해 두 가지 가능한 결과가 있습니다 . 이 속성은 곱셈의 의미를 변경하기 때문에 매우 중요합니다. 가능한 두 가지 경우가 있습니다.y{0,1}

logP~(y=1)=zlogP~(y=0)=0

y=0y=1y=0

다음으로 정규화되지 않은 확률을 얻기 위해 비정규 화 된 로그 확률에 지수를 적용합니다.

P~(y=1)=ezP~(y=0)=e0=1

다음으로 각 정규화되지 않은 확률을 가능한 모든 정규화되지 않은 확률의 합으로 나누는 확률을 정규화합니다.

P(y=1)=ez1+ezP(y=0)=11+ez

P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

우리가 볼 수 있듯이, 그것은 사이의 관계를 보여주는 방법입니다.σP(y)


y=0y=1

y=1

y×zyzay+bz+clogyz

실제로 흥미로운 질문입니다. 처음으로 질문을 읽을 때이 진술에주의를 기울이지 않았습니다. 이제 나에게도 이상하게 보입니다. 한 가지 문제는 y 이진 변수이며 이러한 상황에서 선형 함수의 속성을 확인하는 방법을 잘 모르겠다는 것입니다. 별도의 질문을한다면 이해가 될 것 같습니다. 아마도 누군가가 왜 이런 식으로 쓰여 졌는지 설명 할 수있을 것입니다.
itdxer

2

나는 또한이 책의 일부를 따라 가기가 어렵다는 것을 알고, itdxer의 위의 대답은 확률과 수학 사고에 제대로 유창하지 않은 사람에게도 이해할 시간이 충분합니다. 그러나 답을 거꾸로 읽었으므로 z의 sigmoid로 시작하십시오.

P(y=1)=ez1+ez=11+ez

다시 따라하려고 노력하십시오.

logP~(y)=yz

그런 다음 왜 그들이 yz로 설명을 시작했는지 이해하는 것입니다. 최종 설계와 동일합니다.

σ((2y1)z)

구성에 의해 Bernoulli 하에서 y의 유일한 가능한 값인 y = 0에 대해 -1을, y = 1에 대해 1을 얻을 수 있습니다.


0

다음은 이론적 인 배경을 가진 사람들에게 호소력이있는 공식적인 표현입니다.

YPYy{0,1}PY(y)=P(Y=y)P~Y

다음과 같은 의미의 연쇄가 있습니다.

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

마지막 동등성은 현명하게 매핑하는 방법입니다{0,1}{1,1}

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.