3 개의 prob 분포에 대한 Jensen-Shannon 분기 계산 : 괜찮습니까?

12

3 가지 분포를 따르는 젠슨-섀넌 분산을 계산하고 싶습니다. 아래 계산이 정확합니까? ( 위키피디아의 JSD 공식을 따랐 습니다 ) :

P1  a:1/2  b:1/2    c:0
P2  a:0    b:1/10   c:9/10
P3  a:1/3  b:1/3    c:1/3
All distributions have equal weights, ie 1/3.

JSD(P1, P2, P3) = H[(1/6, 1/6, 0) + (0, 1/30, 9/30) + (1/9,1/9,1/9)] - 
                 [1/3*H[(1/2,1/2,0)] + 1/3*H[(0,1/10,9/10)] + 1/3*H[(1/3,1/3,1/3)]]

JSD(P1, P2, P3) = H[(1/6, 1/5, 9/30)] - [0 + 1/3*0.693 + 0] = 1.098-0.693 = 0.867

미리 감사드립니다 ...

편집 여기에 이것을 계산하는 간단한 더러운 파이썬 코드가 있습니다.

    def entropy(prob_dist, base=math.e):
        return -sum([p * math.log(p,base) for p in prob_dist if p != 0])

    def jsd(prob_dists, base=math.e):
        weight = 1/len(prob_dists) #all same weight
        js_left = [0,0,0]
        js_right = 0    
        for pd in prob_dists:
            js_left[0] += pd[0]*weight
            js_left[1] += pd[1]*weight
            js_left[2] += pd[2]*weight
            js_right += weight*entropy(pd,base)
        return entropy(js_left)-js_right

usage: jsd([[1/2,1/2,0],[0,1/10,9/10],[1/3,1/3,1/3]])

distance-functions information-theory

— kanzen_master
소스

2

그건 그렇고 멋진 파이썬 코드!

— gui11aume

13

혼합물 분포에 실수가 있습니다. 합계가 1이 아닌 대신 이어야합니다 . 엔트로피 (자연 로그 포함)는 1.084503입니다. . 다른 엔트로피 용어가 잘못되었습니다. $(5/18, 28/90, 37/90)$ $(1/6, 1/5, 9/30)$

하나의 계산에 대해 자세히 설명하겠습니다.

H (1 / 2, 1 / 2, 0) = - 1 / 2 * \log (1 / 2) - 1 / 2 * \log (1 / 2) + 0 = 0.6931472

$H(1/2,1/2,0) = -1/2*\log(1/2) - 1/2*\log(1/2) + 0 = 0.6931472$

비슷한 방식으로 다른 용어는 0.325083 및 1.098612입니다. 따라서 최종 결과는 1.084503-(0.6931472 + 0.325083 + 1.098612) / 3 = 0.378889입니다.

— gui11aume
소스

3

+1. 빠르고 더러운 R 계산 :

h <- function(x) {h <- function(x) {y <- x[x > 0]; -sum(y * log(y))}; jsd <- function(p,q) {h(q %*% p) - q %*% apply(p, 2, h)}

. 인수 p는 행이 분포이고 인수 q가 가중치 벡터 인 행렬입니다 . 예를 들어p <- matrix(c(1/2,1/2,0, 0,1/10,9/10, 1/3,1/3,1/3), ncol=3, byrow=TRUE); q <- c(1/3,1/3,1/3); jsd(p,q) 반환합니다 (이 값은 ).

0.378889

$0.378889$

3^{34 / 15} 5^{1 / 9} 2^{- 13 / 45} 7^{- 14 / 45} 37^{- 37 / 90}

$3^{34/15} 5^{1/9} 2^{-13/45} 7^{-14/45} 37^{-37/90}$

— whuber

1

그렇게 더럽지 않은 ... ;-)

— gui11aume

4

(1) 수학을 다시한다. (2) 엔트로피는 일관된 한 원하는 모든 로그를 사용하여 측정 할 수 있습니다. 자연, 공통 및 기본 -2 로그는 모두 기존의 로그입니다. (3) 분포와 평균 간의 평균 불일치입니다. 각 분포를 점으로 생각하면 구름을 형성합니다. 구름의 중심과 그 지점 사이의 평균 "거리"를 평균 반경과 같은 것으로보고 있습니다. 직관적으로 클라우드의 크기를 측정합니다.

— whuber

1

@Legend 당신이 옳다고 생각합니다. 하나의 결과가 다른 방법으로 얻은 답변에 동의한다는 것을 알게 된 후에 충분히 테스트하지 못했습니다 ( Mathematica 사용 ).

— whuber

1

@dmck 내 의견에 실제로 오타가 있습니다. (1) 문구 h <- function(x) {가 두 번 붙여졌습니다. 그냥 삭제하십시오. 다른 모든 것이 작동하고 내가 인용 한 결과를 생성합니다. 그런 다음 Legend가 주석에서 지적한대로 apply(p, 2, h)to apply(p, 1, h)를 수정하십시오 .

— whuber

6

파이썬 :

import numpy as np
# @author: jonathanfriedman

def jsd(x,y): #Jensen-shannon divergence
    import warnings
    warnings.filterwarnings("ignore", category = RuntimeWarning)
    x = np.array(x)
    y = np.array(y)
    d1 = x*np.log2(2*x/(x+y))
    d2 = y*np.log2(2*y/(x+y))
    d1[np.isnan(d1)] = 0
    d2[np.isnan(d2)] = 0
    d = 0.5*np.sum(d1+d2)    
    return d

jsd(np.array([0.5,0.5,0]),np.array([0,0.1,0.9]))

자바:

/**
 * Returns the Jensen-Shannon divergence.
 */
public static double jensenShannonDivergence(final double[] p1,
        final double[] p2) {
    assert (p1.length == p2.length);
    double[] average = new double[p1.length];
    for (int i = 0; i < p1.length; ++i) {
        average[i] += (p1[i] + p2[i]) / 2;
    }
    return (klDivergence(p1, average) + klDivergence(p2, average)) / 2;
}

public static final double log2 = Math.log(2);

/**
 * Returns the KL divergence, K(p1 || p2).
 * 
 * The log is w.r.t. base 2.
 * <p>
 * *Note*: If any value in <tt>p2</tt> is <tt>0.0</tt> then the
 * KL-divergence is <tt>infinite</tt>. Limin changes it to zero instead of
 * infinite.
 */
public static double klDivergence(final double[] p1, final double[] p2) {
    double klDiv = 0.0;
    for (int i = 0; i < p1.length; ++i) {
        if (p1[i] == 0) {
            continue;
        }
        if (p2[i] == 0.0) {
            continue;
        } // Limin

        klDiv += p1[i] * Math.log(p1[i] / p2[i]);
    }
    return klDiv / log2; // moved this division out of the loop -DM
}

— 르노
소스

0

위키 백과 참조를하셨습니다. 다음은 확률 분포가 여러 개인 Jensen-Shannon 분기에 대한 완벽한 표현입니다.

J S m e t r i c (p^{1}, . . ., p^{m}) = H (\frac{p^{1} + . . . + p^{m}}{m}) - \frac{\sum_{j = 1}^{m} H (p^{j})}{m}

$JSmetric(p^1,...,p^m)=H(\frac{p^1+...+p^m}{m})-\frac{\sum_{j=1}^{m} H(p^j)}{m}$

다중 분포 JS 분기의 수학적 표현없이 원래의 질문이 게시되어 제공된 계산을 이해하는 데 혼란을 초래했습니다. 또한 weight곱셈에 적합한 가중치를 선택하는 방법에 혼동을 일으키는 용어 가 사용되었습니다. 위의 표현은 이러한 혼란을 명확하게합니다. 위의 표현에서 알 수 있듯이 가중치는 분포 수에 따라 자동으로 선택됩니다.

— 안녕하세요 월드
소스

품질이 낮기 때문에 자동으로 품질이 낮은 것으로 표시됩니다. 현재는 표준에 의한 답변보다 더 많은 의견입니다. 당신은 그것을 확장 할 수 있습니까? 주석으로 바꿀 수도 있습니다.

— gung-복직 모니카

그것은 대답이 아닌 설명처럼 들립니다. 질문을 수정해야합니까?

— gung-복직 모니카

@ gung, 내 대답을 수정했습니다. 도움이 되길 바랍니다.

— Hello World

0

두 개의 임의 길이 시퀀스의 JS 발산의 스칼라 버전 :

def entropy(dist: WrappedArray[Double]) = -(dist.filter(_ != 0.0).map(i => i * Math.log(i)).sum)


val jsDivergence = (dist1: WrappedArray[Double], dist2: WrappedArray[Double]) => {
    val weights = 0.5 //since we are considering inly two sequences
    val left = dist1.zip(dist2).map(x => x._1 * weights + x._2 * weights)
    // println(left)
    // println(entropy(left))
    val right = (entropy(dist1) * weights) + (entropy(dist2) * weights)
    // println(right)
    entropy(left) - right

}

jsDivergence(Array(0.5,0.5,0), Array(0,0.1,0.9))

res0: Double = 0.557978817900054

질문 수정 섹션의 코드로이 답변을 확인하십시오.

jsd([np.array([0.5,0.5,0]), np.array([0,0.1,0.9])])
0.55797881790005399

— 마그 스와 란
소스

0

Wikipedia 공식을 기반으로 한 파이썬의 n 확률 분포에 대한 일반 버전 과 매개 변수 및 사용자 정의 로그베이스 로 가중치 벡터 ( pi )가 있는이 게시물의 주석 :

import numpy as np
from scipy.stats import entropy as H


def JSD(prob_distributions, weights, logbase=2):
    # left term: entropy of mixture
    wprobs = weights * prob_distributions
    mixture = wprobs.sum(axis=0)
    entropy_of_mixture = H(mixture, base=logbase)

    # right term: sum of entropies
    entropies = np.array([H(P_i, base=logbase) for P_i in prob_distributions])
    wentropies = weights * entropies
    # wentropies = np.dot(weights, entropies)
    sum_of_entropies = wentropies.sum()

    divergence = entropy_of_mixture - sum_of_entropies
    return(divergence)

# From the original example with three distributions:
P_1 = np.array([1/2, 1/2, 0])
P_2 = np.array([0, 1/10, 9/10])
P_3 = np.array([1/3, 1/3, 1/3])

prob_distributions = np.array([P_1, P_2, P_3])
n = len(prob_distributions)
weights = np.empty(n)
weights.fill(1/n)

print(JSD(prob_distributions, weights))

0.546621319446

— 알레 몰
소스