직관적으로 교차 엔트로피가 두 확률 분포의 거리를 측정하는 이유는 무엇입니까?


11

두 개의 이산 분포 및 에 대해 교차 엔트로피는 다음과 같이 정의됩니다.q

H(,)=엑스(엑스)로그(엑스).

이것이 왜 두 확률 분포 사이의 거리를 직관적으로 측정 할 수 있을지 궁금합니다.

그 볼 의 엔트로피 , 측정치 「놀람」 . 는 를 부분적으로 대체하는 측정 값입니다 . 나는 여전히 정의의 직관적 인 의미를 이해하지 못한다.p p H ( p , q ) p qH(,)H(,)


1
측정치 (및 거리)의 수학적 정의를 찾아 보는 것이 좋습니다. 일반적으로 이러한 속성을 따르는 것이 함수가 따라야 할 최소한의 것입니다. 도움이 되길 바랍니다. 비록 . 직관적으로, KL 발산의 일부인 함수이기 때문에 엔트로피 p에 의해 p와 q의 오프셋의 일종으로 가정합니다. 그러나 그것은 단지 추측입니다. 또한 발산은 메트릭 / 거리가 아니므로 Cross Entropy가 놀랍습니다. H(,)=H()+케이(||)
찰리 파커

그런 이해 Kullback_leibler 발산 이해 크로스 엔트로피하는 데 도움이 : stats.stackexchange.com/questions/188903/...을
할보 르센 kjetil B

1
다음은 KL Divergence를 명확하고 간단한 방법으로 설명하는 멋진 비디오입니다. youtube.com/watch?v=ErfnhcEV1O8
Katherine Chen

이 "교차 엔트로피 뒤에 숨은 직관"이 도움이되는지 확인하십시오. medium.com/@siddharth.4oct/…
Siddharth Roy

답변:


6

교차 엔트로피를 최소화하는 것은 종종 p가 실제 분포이고 q가 학습 분포 인 생성 모델에서 학습 목표로 사용됩니다.

p와 q의 교차 엔트로피는 p의 엔트로피와 p와 q 사이의 KL 발산과 같습니다.

H(,)=H()+케이(||)

p 는 훈련 데이터에서 직접 나오고 모델에서 학습하지 않기 때문에 를 상수로 생각할 수 있습니다 . 따라서 KL 분기 용어 만 중요합니다. 확률 분포 사이의 거리로서 KL 발산의 동기는 근사 q 대신에 분포 p를 사용하여 얻을 수있는 정보의 비트 수를 알려준다는 것입니다.H()

KL 발산은 적절한 거리 측정법이 아닙니다. 우선 p와 q에서 대칭이 아닙니다. 확률 분포에 거리 측정법이 필요한 경우 다른 것을 사용해야합니다. 그러나 "거리"라는 단어를 비공식적으로 사용하는 경우 KL 분기를 사용할 수 있습니다.


1
왜 p를 상수라고 생각할 수 있습니까? 무엇을 배우나요"? 큐? 원래의 질문은 학습에 대해 아무 말도하지 않았기 때문에 나는 당신이 의미하는 바를 더 잘 이해하는 데 관심이 있습니다 :)
Charlie Parker

2
더 명확하게하기 위해 편집했습니다. p는 훈련 데이터에서 나오는 분포이며 q는 모형에서 학습됩니다.
Aaron
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.