KL 분기에 대한 질문?


14

두 분포를 KL 분기와 비교하여이 측정에 대해 읽은 내용에 따라 하나의 가설을 다른 가설로 변환하는 데 필요한 정보의 양인 비표준 숫자를 반환합니다. 두 가지 질문이 있습니다.

a) 효과 크기 나 R ^ 2와 같이보다 의미있는 해석을 갖도록 KL 분기를 정량화하는 방법이 있습니까? 어떤 형태의 표준화?

b) R에서 KLdiv (flexmix 패키지)를 사용할 때 수치 안정성을 제공하기 위해 esp보다 작은 모든 포인트를 일부 표준으로 설정하는 'esp'값 (표준 esp = 1e-4)을 설정할 수 있습니다. 나는 다른 esp 값을 가지고 놀고 있었고, 내 데이터 세트에 대해, 내가 선택한 숫자가 작을수록 점점 더 큰 KL 발산을 얻습니다. 무슨 일이야? esp가 작을수록 더 많은 '실제 가치'가 통계의 일부가되게하므로 결과의 신뢰성이 높아질 것으로 기대합니다. 아니? 그렇지 않으면 통계를 계산하지 않지만 결과 테이블에서 단순히 NA로 표시되므로 esp를 변경해야합니다 ...

답변:


10

p 또는 q로 생성 된 n 개의 IID 샘플이 있다고 가정하십시오. 어떤 분배를 생성했는지 식별하려고합니다. 그것들이 q에 의해 생성되었다는 귀무 가설을 취하십시오. a는 실수로 귀무 가설을 기각하고 Type I 오류 확률을 나타내고 b는 Type II 오류 확률을 나타냅니다.

그런 다음 큰 n의 경우 유형 I 오류 확률은 적어도

exp(nKL(p,q))

다시 말해, "최적의"결정 절차의 경우, 유형 I의 확률은 각 데이터 포인트에 따라 최대 exp (KL (p, q))만큼 떨어집니다. 유형 II 오류는 최대 만큼 떨어집니다 .exp(KL(q,p))

임의의 n에 대해 a와 b는 다음과 관련이 있습니다.

blogb1a+(1b)log1banKL(p,q)

aloga1b+(1a)log1KL(,)

b와 KL의 관점에서 위의 경계를 a의 하한으로 표현하고 b를 0으로 줄이면 결과 작은 n에 대해서도 "exp (-n KL (q, p))"경계에 접근하는 것 같습니다

자세한 내용은 여기 10 페이지 및 Kullback의 "정보 이론 및 통계"(1978)의 74-77 페이지 를 참조 하십시오 .

참고로,이 해석은 Fisher 정보 메트릭 을 동기 부여 하는 데 사용될 수 있습니다 . Fisher의 거리 k에서 작은 거리 k (작은 k)의 분포 쌍 p, q의 경우,이를 구별하기 위해 동일한 수의 관측치가 필요하기 때문에


1
+1이 해석이 마음에 듭니다! "p below e"를 명확히 할 수 있습니까? 왜 당신은 작은 전자를합니까? 당신은 "반대 실수를 할 확률은"상한이거나 정확한 확률이라고 말합니다. 내가 기억한다면,이 유형의 접근 방식은 Chernoff에 기인 한 것입니다. 참조가 있습니까?
로빈 지라드

1
Balasubramanian의 논문이했던 것처럼 작은 전자를 가져 오는 이유는 무엇입니까? 그러나 이제 Kullback으로 돌아 가면 전자에 대한 그의 구속력이있는 것처럼 보이며 유한 한 N에 대한 구속력을 갖게됩니다.
야로슬라프 불라 토프

좋아, 우리는 작게 유지하기 위해 작은 e (현재 b, 유형 II 오류)가 작을 필요는 없지만 b = 0은 단순화 된 (exp (-n KL (p, q))가 바인딩 된 값입니다. 흥미롭게도 0 타입 II 오류가 <1 인 경우 타입 I 오류에 대한 하한은 <1 타입 II 오류율이 실제로 달성 가능한지 궁금합니다
Yaroslav Bulatov

1
이것에 대한 참조를 이해하기가 훨씬 더 쉽다는 것은 표지의 "정보 이론의 요소", 309 페이지, 12.8 "Stein 's Lemma"
Yaroslav Bulatov

8

KL은 피셔 메트릭 텐서 내의 매니 폴드로 일련의 덴 티티 를 시각화 할 때 깊은 의미를 지니고 있으며, 두 "근접"분포 사이의 측지 거리를 제공합니다. 공식적으로 :

ds2=2KL(p(x,θ),p(x,θ+dθ))

다음은이 라스 수학 공식의 의미를 자세히 설명하기위한 것입니다.

Fisher 지표의 정의.

매개 변수화 된 확률 분포 ( R n의 밀도로 제공됨 )를 고려하십시오. 여기서 x 는 랜덤 변수이고 theta는 R p 의 매개 변수입니다 . 피셔 정보 매트릭스 F = ( F i j )D=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

이 표기법에서 는 리만 만 매니 폴드이고 F ( θ ) 는 리만 메트릭스 텐서입니다. (이 메트릭의 관심은 Cramer Rao 하한 정리에 의해 제공됩니다)DF(θ)

당신은 말할 수 있습니다 ... OK 수학적 추상화이지만 KL은 어디에 있습니까?

수학적 추상화가 아닙니다. 인 경우 매개 변수화 된 밀도를 무한 치수 공간의 하위 집합 대신 곡선으로 상상할 수 있고 F 11 이 해당 곡선의 곡률에 연결되어 있습니다 ... Bradley Efron의 종이 http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )p=1F11

귀하의 질문에서 점 a /의 일부에 대한 기하학적 해답 : 매니 폴드의 두 (닫기) 분포 p ( x , θ )p ( x , θ + d θ ) 사이 의 제곱 거리 (측지 거리에 대한 생각) 가까운 두 점의 지구, 그것은 지구의 곡률과 관련이 있습니다)는 이차 형태로 제공됩니다 :ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

Kullback Leibler Divergence의 두 배인 것으로 알려져 있습니다.

ds2=2KL(p(x,θ),p(x,θ+dθ))

당신이 더 많은 내가 아마리에서 용지를 읽어 보시기 바랍니다 그것에 대해 배우고 싶다면 http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (나는 아마리에서 책에 대한도 있다고 생각 통계의 리먼 지오메트리 기하학이지만 이름을 기억하지 못합니다)


LaTeX 주위에 $를 추가하십시오. 이제 정상적으로 렌더링되어야합니다. meta.math.stackexchange.com/questions/2/…
Rob Hyndman

1
나는 수학 자나 통계학자가 아니기 때문에, 내가 잘못 이해하지 못하도록 당신이 말한 것을 다시 말하고 싶습니다. 따라서 ds ^ 2 (KL의 2 배)를 취하면 일반 분포에 대해 R ^ 2 (회귀 모형)와 유사한 의미를 갖게됩니다. 그리고 이것은 실제로 거리를 기하학적으로 정량화하는 데 사용될 수 있습니까? ds ^ 2에 이름이 있으므로 이에 대해 더 많이 읽을 수 있습니다. 이 메트릭을 직접 설명하고 응용 프로그램과 예제를 보여주는 논문이 있습니까?
앰플 포스

나는 당신이 요점을 이해하지 못한다고 생각하며, 당신이 지금 더 나아갈 것을 확신하지 못합니다. 당신이 동기가 있다면, 내가 언급 한 Bradley Efron의 논문이나 Amari projecteuclid.org/… 의 논문을 읽을 수 있습니다 .
로빈 지라드

1
이것은 오히려 KL 자체보다 KL의 방향 유도체의 특성 것 같다, 때문에 매니 폴드의 구조에 의존하지 않는 파생, KL-분기와는 달리 그것의 KL 발산를 얻을 수하지 않는 것
Yaroslav Bulatov

7

분포 p (.)와 q (.) 사이의 KL (p, q) 분기는 유용한 정보 이론 해석을 제공합니다.

확률 분포 p (.)에 의해 생성 된 데이터 x를 관찰한다고 가정하자. p (.)에 의해 생성 된 데이터를 진술하는데 필요한 비트 단위의 평균 코드 길이의 하한은 p (.)의 엔트로피에 의해 주어진다.

이제 p (.)를 모르기 때문에 데이터를 인코딩 (또는 기술, 기술)하기 위해 q (.)와 같은 다른 분포를 선택합니다. p (.)에 의해 생성되고 q (.)를 사용하여 인코딩 된 데이터의 평균 코드 길이는 실제 분포 p (.)가 코딩에 사용 된 경우보다 반드시 길어질 것입니다. KL 분기는이 대체 코드의 비 효율성에 대해 알려줍니다. 즉, p (.)와 q (.) 사이의 KL 발산은 코딩 분포 q (.)를 사용하여 p (.)에 의해 생성 된 데이터를 인코딩하는 데 필요한 여분의 비트 의 평균 수입니다 . KL 발산은 음수가 아니고 실제 데이터 생성 분포가 데이터를 인코딩하는 데 사용되는 경우 0과 같습니다.


2

질문의 (b) 부분에서 분포 중 하나가 다른 분포가없는 지역에서 밀도를 갖는 문제를 겪을 수 있습니다.

()=나는ln나는나는

존재하는 경우 나는 어디 나는>0나는=0. R 구현에서 숫자 엡실론은이 문제에서 "저장"됩니다. 그러나 결과 값이이 매개 변수에 의존한다는 것을 의미합니다 (기술적으로나는=0 필요하지 않습니다. 나는 숫자 엡실론보다 작습니다).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.