배경 : 저는 Ian Goodfellow와 Yoshua Bengio, Aaron Courville의 딥 러닝 6 장을 공부하고 있습니다. 섹션 6.2.2.2 ( 여기에서 볼 수있는 183의 183 페이지 182 )에서 출력 에 시그 모이 드를 사용하는 것이 동기가됩니다.
재료를 요약 하기 위해 활성화가 적용되기 전에 출력 뉴런으로 설정합니다. 여기서 h 는 이전 숨겨진 레이어의 출력이고, w 는 가중치 벡터이며 b 는 스칼라 바이어스입니다. 입력 벡터는 x (이는 h 의 함수 임)로 표시되고 출력 값은 y = ϕ ( z ) 로 표시 됩니다. 여기서 ϕ 는 시그 모이 드 함수입니다. 이 책 은 값 z를 사용하여 y에 대한 확률 분포를 정의하려고합니다.
값 z를 사용하여 y에 대한 확률 분포를 정의하는 방법을 논의하기 위해 대한 의존성을 생략합니다 . 시그 모이 드는 1이 아닌 정규화되지 않은 확률 분포 ~ P ( y ) 를 구성하여 동기를 부여 할 수 있습니다. 그런 다음 유효한 확률 분포를 얻기 위해 적절한 상수로 나눌 수 있습니다. 정규화되지 않은 로그 확률이 y 및 z 에서 선형이라는 가정으로 시작 하면 정규화되지 않은 확률을 얻기 위해 지수화 할 수 있습니다. 우리는 다음 평준화 수율이 Z의 시그 모이 드 변환 제어 베르누이 분포가 있는지 : 로그 ~
질문 : 두 가지, 특히 첫 번째에 대해 혼란스러워합니다.
- 초기 가정은 어디에서 오는가? 정규화되지 않은 로그 확률이 와 z 에서 선형 인 이유는 무엇 입니까? 저자가 log ~ P ( y ) = y z로 시작한 방법에 대한 누군가를 제안 할 수 있습니까 ?
- 마지막 줄은 어떻게됩니까?