딥 러닝 ( Deep Learning) 및 정보 병목 현상 원칙 (Information Bottleneck Principle) 이라는 논문에서 저자는 섹션 II A)에서 다음과 같이 설명합니다.
단일 뉴런은 입력 공간 하이퍼 플레인 만 구현할 수 있으므로 선형으로 분리 가능한 입력 만 분류합니다 . 초평면은 입력이 조건에 맞지 않을 때 데이터를 최적으로 분류 할 수 있습니다.
이를 보여주기 위해 다음을 도출합니다. 베이 즈 정리를 사용하면 다음과 같은 이점이 있습니다.
(1)
여기서 입력이고, 클래스이고 예측 클래스 (I 가정한다 정의되지 않음). 계속해서 그들은 다음과 같이 진술합니다.
(2)
여기서 은 입력 차원이고 확실하지 않습니다 (다시 말해 둘 다 정의되지 않음). 시그 모이 드 활성화 함수 및 사전 활성화 가있는 시그 모이 드 뉴런을 고려하여 (2)를 (1)에 삽입 한 후 최적의 가중치를 얻습니다 입력 값 인 경우 및 .
이제 내 질문에. 나는 (2)를 (1)에 삽입하는 것이 어떻게 최적의 무게와 입력 값 이끌어 내는지 이해합니다 . 그러나 내가 이해하지 못하는 것은 다음과 같습니다.
- (1) 베이 즈 정리를 사용하여 어떻게 도출됩니까?
- (2)는 어떻게 도출됩니까? 은 무엇입니까 ? 그것의 의미는 무엇입니까? 조건부 독립과 관련이 있다고 가정합니다.
- x의 차원이 조건부로 독립적 인 경우에도 어떻게 확장 확률과 같다고 말할 수 있습니까? (즉, 어떻게 나타낼 수 있습니까?)
편집 : 변수 는 이진 클래스 변수입니다. 이것으로부터 나는 가 "다른"클래스 라고 가정한다 . 이것은 질문 1을 해결할 것입니다. 동의하십니까?