젠슨 섀넌 이산과 쿨백-레 블러 이산?


14

KL Divergence는 대칭이 아니며 메트릭으로 엄격하게 간주 될 수 없습니다. 그렇다면 JS Divergence가 메트릭에 필요한 특성을 충족 할 때 왜 사용됩니까?

KL 분기를 사용할 수 있지만 JS 분기 또는 그 반대의 시나리오가 있습니까?


둘 다 사용되며 상황에 따라 다릅니다. 클러스터링을 수행 할 때와 같이 엄격한 메트릭이 필요하다는 것이 확실하면 JS가 더 선호됩니다. 반면, 모델 선택에서 KL을 기반으로하는 AIC의 사용이 널리 퍼져 있습니다. Akaike 가중치는 JS가 상대방을 제공 할 수 없거나 아직 대중화되지 않은 훌륭한 해석을 가지고 있습니다.
제임스

답변:


5

Quora 에서 매우 성숙한 답변을 찾았 으며 여기에서 찾는 사람들을 위해 여기에 넣으십시오.

Kullback-Leibler 발산은 nice 가 널이 아닌 질량을 이 널 질량을 갖는 종류의 혐오 영역 의 몇 가지 좋은 특성을 가지고 있습니다 . 이것은 버그처럼 보일 수 있지만 실제로는 특정 상황에서 기능입니다.𝐾𝐿[𝑞;𝑝]𝑞(𝑥)𝑝(𝑥)

(추적 가능한) 근사 분포 의해 복잡한 (다루기 어려운) 분포 에 대한 근사를 찾으려면 는 또한 에서 것이 매우 불가능합니다 . KL에이 속성이 있음을 쉽게 알 수 있습니다. 가 있습니다. 𝑞 (𝑥)는 작지만 는 그렇지 않으면 괜찮습니다. 그러나 작, 이것은 매우 빠르게 경우 성장 도 작지 않다. 따라서 을 최소화하기 위해 를 선택하면𝑝(𝑥)𝑞(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]𝑝(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝐾𝐿[𝑞;𝑝]그것은 매우 희한입니다 지역에 질량을 많이 할당합니다 근처 제로이다.𝑞(𝑥)𝑝(𝑥)

Jensen-Shannon 분기에는이 속성이 없습니다. 와 가 작을 때 잘 동작합니다 . 그만큼 배포 처벌하지 않습니다이 수단 당신이 불가능한 값을 샘플링 할 수있는 .𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑝(𝑥)


1

KL 분기는 명확한 정보 이론적 해석을 가지고 있으며 잘 알려져 있습니다. 그러나 KL 발산의 대칭을 JS 발산이라고합니다. JS 분기가 자주 사용되지 않는 이유는 잘 알려지지 않았으며 필수 속성을 제공하지 않기 때문일 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.