입력이 조건부 독립적 일 때 하이퍼 플레인은 데이터를 최적으로 분류합니다. 왜 그렇습니까?


10

딥 러닝 ( Deep Learning) 및 정보 병목 현상 원칙 (Information Bottleneck Principle) 이라는 논문에서 저자는 섹션 II A)에서 다음과 같이 설명합니다.

단일 뉴런은 입력 공간 하이퍼 플레인 만 구현할 수 있으므로 선형으로 분리 가능한 입력 만 분류합니다 . 초평면은 입력이 조건에 맞지 않을 때 데이터를 최적으로 분류 할 수 있습니다.u=wh+b

이를 보여주기 위해 다음을 도출합니다. 베이 즈 정리를 사용하면 다음과 같은 이점이 있습니다.

p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y)) (1)

여기서 입력이고, 클래스이고 예측 클래스 (I 가정한다 정의되지 않음). 계속해서 그들은 다음과 같이 진술합니다.xyyy

p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj) (2)

여기서 은 입력 차원이고 확실하지 않습니다 (다시 말해 둘 다 정의되지 않음). 시그 모이 드 활성화 함수 및 사전 활성화 가있는 시그 모이 드 뉴런을 고려하여 (2)를 (1)에 삽입 한 후 최적의 가중치를 얻습니다 입력 값 인 경우 및 .Nnσ(u)=11+exp(u)uwj=logp(xj|y)p(xj|y)b=logp(y)p(y)hj=np(xj)

이제 내 질문에. 나는 (2)를 (1)에 삽입하는 것이 어떻게 최적의 무게와 입력 값 이끌어 내는지 이해합니다 . 그러나 내가 이해하지 못하는 것은 다음과 같습니다.w,b,h

  1. (1) 베이 즈 정리를 사용하여 어떻게 도출됩니까?
  2. (2)는 어떻게 도출됩니까? 은 무엇입니까 ? 그것의 의미는 무엇입니까? 조건부 독립과 관련이 있다고 가정합니다.n
  3. x의 차원이 조건부로 독립적 인 경우에도 어떻게 확장 확률과 같다고 말할 수 있습니까? (즉, 어떻게 나타낼 수 있습니까?)hj=np(xj)

편집 : 변수 는 이진 클래스 변수입니다. 이것으로부터 나는 가 "다른"클래스 라고 가정한다 . 이것은 질문 1을 해결할 것입니다. 동의하십니까?yy


논문의 저자 (Tishby 교수)의 대답에도 불구하고 방정식 2의 출처를 이해하기 위해 고심하고 있습니다. 조건부 독립 가정에서 비롯된 부분을 이해합니다. 그러나 지수 에 대해 확실하지 않습니다. 왜 존재합니까? np(xj)
IcannotFix이

답변:


5

우리의 짧은 논문에서 누락 된 세부 사항에 대해 유감이지만, 우도 비율 테스트와 S 자형 뉴런 사이의 이러한 관계와 연결은 확실히 새로운 것이 아니며 교과서에서 찾을 수 있습니다 (예 : Bishop 2006). 본 백서에서 'N'은 입력 차원이고 'n'은 테스트 샘플 크기입니다 (실제로 SNR이 sqrt (n)처럼 커진다는 가정하에 입력 SNR로 변환 됨). S 자형 함수와의 연결은 클래스의 후부로서 베이 즈 규칙을 통해 수행됩니다. 나머지 논문과 2017 년의 새롭고 중요한 논문은 실제로 이것에 의존하지 않습니다.

나프 탈리 티 시비


2
이것을 명확히 해 주셔서 감사합니다. 이 커뮤니티에서는 관심있는 독자가 출처를 찾을 수 있도록 전체 인용을 작성하는 것이 표준 관행입니다. 주교 (2006)를 위해 이것을 할 수 있습니까?
mkt-Reinstate Monica

5

이것은 저자가 이진 변수에 관심이있을 때 적용되는 특수한 형태의 Bayes 정리를 사용하는 모델 설정입니다. 그들은 먼저이 특별한 형태의 베이 즈 정리를 식 (1)으로 도출 한 다음, 식 (2)의 조건이 네트워크에 대해 지정된 선형 형태로 이끄는 것을 보여줍니다. 후자의 방정식 이전 조건에서 파생 된 것이 아니라 네트워크에 사용하는 선형 형태 의 조건 이라는 점에 유의해야합니다 .


첫 번째 방정식 도출 : 논문의 식 (1) 은 가능성과 이전의 함수에서 작동 하는 표준 로지스틱 (sigmoid) 함수 측면에서 조건부 관심 확률을 나타내는 베이 즈 정리의 한 형태 일뿐 입니다. 와 를 랜덤 변수 의 2 진 결과로 취하고 베이 즈 정리를 적용하면 다음과 같은 결과가 나타 납니다.yyY

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

식 (2)를 네트워크의 거짓말 쟁이 형태에 대한 조건으로 사용 : 위에서 언급 했듯이이 식은 이전 결과에서 도출 된 것이 아닙니다. 오히려, 그것은 충분 조건 저자는 즉, 자신의 모델 ---에서 사용하는 선형 형태로 리드, 저자가 말하는 것을 하면 이 방정식이 보유하고 특정 이후의 결과에 따라가. 방정식 (2)가 유지되면 입력 벡터 에 길이 을두면 양의 로그를 취하면 다음과 같습니다.x=(x1,...,xN)N

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

이 조건에서 우리는 후부 형태를 얻습니다.

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

이것은 저자가 네트워크에서 사용하는 형식입니다. 이것은 식 (1)-(2)를 지정하기 전에 배경 섹션에서 저자가 가정 한 모델 형식입니다. 논문은 이이 모델 설정에 정의되어 있지 않지만 교수님이 지적한대로 Tishby 교수의 답은 이것이 테스트 샘플 크기라고 말합니다. 세 번째 문제에 관련하여, 수학 식의 요구가있는 숫자 (2) 수단은 것 같습니다 되어 있지 조건부 독립적 주어진 .nxy


Tishby 교수 (저자)는 자신의 대답에 따라 이 테스트 샘플 크기 라고 말합니다 . 이것이 내가 방정식 (2)가 네트워크의 선형 형태에 대한 임의의 조건보다 훨씬 더 풍부한 해석을 가지고 있다고 생각한 이유입니다. n
IcannotFix이

감사합니다-이 추가 정보를 반영하기 위해 답변을 수정했습니다.
벤-복직 자 모니카

4

1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

지금처럼 이진,이된다 :yi

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

거기에서 최종 형태에 도달하는 대수의 속성이 있습니다 (이 시점까지 충분히 명확해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.