경험적 분포와 가우스 모델 간의 교차 엔트로피 평균 제곱 오차가 왜됩니까?


28

5.5에서는 딥 러닝 (Ian Goodfellow, Yoshua Bengio 및 Aaron Courville의)에 따르면

음의 로그 우도로 구성된 손실은 훈련 세트에 의해 정의 된 경험적 분포와 모델에 의해 정의 된 확률 분포 사이의 교차 엔트로피입니다. 예를 들어, 평균 제곱 오차는 경험적 분포와 가우스 모델 간의 교차 엔트로피입니다.

나는 그들이 왜 동등한 지 이해할 수 없으며 저자는 요점을 확장하지 못합니다.

답변:


32

데이터를 . 경험적 분포에 대해 F (\ mathbf {x}) 를 씁니다 . 정의에 따라 모든 함수 f 에 대해x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

모델 M 이 밀도 e ^ {f (x)}를 갖도록 하자. ef(x)여기서 f 는 모델 지원에 정의됩니다. 크로스 엔트로피F(x)M 정의가 될

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

x 가 단순 랜덤 표본 이라고 가정하면 음의 로그 가능성은 다음과 같습니다.

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

대수의 속성으로 인해 (제품을 합계로 변환). 식 는 상수 곱하기 식 입니다. 손실 함수는 통계에서 비교 함수 만 사용하기 때문에 하나가 (양수) 상수 시간이고 다른 것보다 차이가 없습니다. 이런 의미에서 음의 로그 가능성은 인용에서 "엔트로피"입니다.(2)n(1)


인용문의 두 번째 주장을 정당화하려면 약간의 상상력이 필요합니다. 점 에서 값 를 예측하는 "가우스 모델" 의 경우, 그러한 점에서 의 값 은p(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

이는 제곱 오차이다 하지만 의해 재 스케일링 과의 함수로 이동 . 인용문을 올바르게 만드는 한 가지 방법은 "모델"의 일부로 간주하지 않는 것으로 가정하는 것 입니다. 는 어떻게 든 데이터와 독립적으로 결정되어야합니다. 그 경우에서는 차이 의 평균 제곱 오차 간의 비례 차이 함으로써 모델 피팅 상업적 셋 모두 동등하게 교차 엔트로피 또는 로그 우도 사이.(xp(x))2 1/(2σ2)σσσ

그러나 일반적으로 는 모델링 프로세스의 일부로 적합하며,이 경우 견적이 정확하지 않습니다.σ=σ(x)


1
두 가지 제안이있는 +1- 와 혼동을 피하기 위해 대신 를 사용할 수 있습니다 . 두 번째는 추정치 가 입니다. 이것을 연결하고 추가하면 . AIC 유형 공식과 유사 ...g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)
확률 론적

@probabilityislogic 나는 쌍의 선택 와 그들이 있기 때문에 않는 밀접하게 관련 수량을 나타냅니다. Ff
whuber

안녕하세요, 이것은 선형 분포에만 적용됩니다. 비선형 분포 문제에서 여전히 MSE를 비용 함수로 사용할 수 있다고 생각합니까?
사자 라이

5

딥 러닝 (Deep Learning) 책의 독자들을 위해 저자들이 5.5.1 절에 예시 : 예 : 최대 회귀와 같은 선형 회귀 분석에 대한 설명을 자세하게 설명한다는 훌륭한 대답에 덧붙이고 싶습니다 .

여기에는 허용 된 답변에 언급 된 제약 조건이 정확하게 나열되어 있습니다.

p(y|x)=N(y;y^(x;w),σ2) . 함수 는 가우스 평균의 예측을 제공합니다. 이 예에서는 분산이 사용자가 선택한 일부 상수 고정되어 있다고 가정합니다 .y^(x;w)σ2

그런 다음, MSE의 최소화가 최대 가능성 추정치에 해당하므로 경험적 분포와 사이의 교차 엔트로피가 최소화됨을 보여줍니다 .p(y|x)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.