쿨백-레 블러 및 콜로 모고 로프-스 미르 노프 거리


37

Kullback–Leibler와 Kolmogorov-Smirnov 거리 측정 간에는 공식적인 차이가 많이 있음을 알 수 있습니다. 그러나 둘 다 분포 사이의 거리를 측정하는 데 사용됩니다.

  • 하나가 다른 하나 대신 사용해야하는 일반적인 상황이 있습니까?
  • 그렇게하는 근거는 무엇입니까?

답변:


23

KL- 차이는 일반적으로 정보 이론적 설정 또는 심지어 베이지안 설정에서 사용되어 추론을 적용하기 전후의 분포 사이의 정보 변화를 측정합니다. 대칭성과 삼각형 부등식이 없기 때문에 일반적인 (메트릭) 의미에서 거리가 아니므로 방향성이 의미가있는 곳에서 사용됩니다.

KS- 거리는 일반적으로 비모수 적 테스트의 맥락에서 사용됩니다. 사실, 나는 그것이 일반적인 "분포 사이의 거리"로 사용되는 것을 거의 보지 못했다. 여기서 거리, Jensen-Shannon 거리 및 다른 거리가 더 일반적이다.1


5
언급 할 가치가있는 KL- 분산의 또 다른 사용은 가설 검정입니다. 는 밀도가 또는 측정 값에서 iid라고 가정합니다 . 하자 . Neyman--Pearson은 이 클 때 최적의 테스트를 거부합니다 . 이제 아래 에서 및 아래 에서 입니다. 이후 음수이다 함의 규칙을 사용한다는 것이다 거부p 0 p 1 T n = n 1n i = 1 log ( p 1 ( X i ) / p 0 ( X i ) ) T n p 0 T nD ( p 0X1,X2,p0p1Tn=n1i=1nlog(p1(Xi)/p0(Xi))Tnp0p 1 T nD ( p 1TnD(p0||p1)p1D ( TnD(p1||p0)T n > 0 p 0D(||)Tn>0p0 점근 적 최적이다.
추기경

과연. 훌륭한 예입니다. 실제로 Chernoff-Hoeffding 테일 바운드의 가장 일반적인 버전은 KL- 분산을 사용합니다.
Suresh Venkatasubramanian

2

더 평신도 용어로 이전 답변과 동일한 내용을 나타내는 또 다른 방법 :

KL Divergence-실제로 두 분포가 얼마나 큰지 측정합니다. 이전 답변에서 언급했듯이이 측정 값은 대칭이 아니므로 적절한 거리 측정 항목이 아닙니다. 즉, 분포 A와 B 사이의 거리는 분포 B와 A 사이의 거리와 다릅니다.

Kolmogorov-Smirnov 테스트-참조 분포에 대한 테스트 분포의 누적 분포를 가장 크게 구분하는 평가 지표입니다. 또한 Kolmogorov 분포에 대한 z- 점수처럼이 메트릭을 사용하여 검정 분포가 기준과 동일한 분포인지 여부에 대한 가설 검정을 수행 할 수 있습니다. 이 메트릭은 대칭이므로 거리 함수로 사용할 수 있습니다. 즉, A의 CDF 대 B의 CDF 사이의 가장 큰 분리는 B의 CDF 대 A의 CDF 사이의 가장 큰 분리와 동일하다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.