다항식 (1 / n,…, 1 / n)을 이산화 Dirichlet (1, .., 1)으로 특성화 할 수 있습니까?


24

따라서이 질문은 약간 지저분하지만 화려한 그래프를 포함시켜 그 내용을 보완합니다! 먼저 배경과 질문.

배경

개 범주에 대해 동일한 probailites를 가진 차원 다항 분포 를 가지고 있다고 가정 해 봅시다 . 하자 정규화 계수 (BE 하다 분포가) :nnπ=(π1,,πn)c

(c1,,cn)Multinomial(1/n,,1/n)πi=cin

이제 를 통한 배포 는 -simplex를 지원 하지만 개별 단계를 지원 합니다. 예를 들어, 경우이 분포는 다음과 같은 지원 (빨간색 점)을 갖습니다.πnn=3

여기에 이미지 설명을 입력하십시오

유사한 지원을 갖는 다른 분포는 차원 분포, 즉 단위 심플 렉스에 대한 균일 분포입니다. 예를 들어 다음은 3 차원 에서 무작위로 추출한 것입니다 .nDirichlet(1,,1)Dirichlet(1,1,1)

여기에 이미지 설명을 입력하십시오

이제 분포 에서 분포를 를 별도의 지원으로 분리합니다 . 내가 생각했던 이산화 (그리고 잘 작동하는 것 같음)는 심플 렉스의 각 지점을 가져 와서 지원하는 가장 가까운 지점으로 "반올림"하는 것 입니다. 3 차원 심플 렉스의 경우 각 색상 영역의 점이 가장 가까운 빨간색 점으로 "반올림"되어야하는 다음 파티션을 얻습니다.다항 ( 1 / N , ... , 1 / N ) 디리클레 ( 1 , ... , 1 ) π ππMultinomial(1/n,,1/n)Dirichlet(1,,1)ππ

여기에 이미지 설명을 입력하십시오

Dirichlet 분포가 균일하기 때문에 각 점에 대한 결과 밀도 / 확률은 각 점에 "반올림"되는 면적 / 볼륨에 비례합니다. 2 차원 및 3 차원 경우에 대해 이러한 확률은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오 ( 이 확률은 Monte Carlo 시뮬레이션에서 온 것입니다 )

따라서 적어도 2 차원과 3 차원의 경우이 방식으로 을 이산함으로써 발생 하는 확률 분포는 의 확률 분포와 같습니다 . 이는 분포 의 정규화 된 결과입니다 . 나는 또한 4 차원으로 시도했지만 거기에서 효과가있는 것 같습니다.π 다항식 ( 1 / n , , 1 / n )Dirichlet(1,,1)πMultinomial(1/n,,1/n)

질문

그래서 내 주요 질문은 :

이러한 특정 방식으로 균일 한 Dirichlet을 분리 할 때 과의 관계가 추가 차원을 유지합니까? 관계가 전혀 유지됩니까? (Monte Carlo 시뮬레이션을 사용하여 이것을 시도했습니다 ...)Multinomial(1/n,,1/n)

또한 궁금합니다.

  • 이 관계가 유지되면 알려진 결과입니까? 그리고 내가 인용 할 수있는 출처가 있습니까?
  • 균일 한 Dirichlet의 이산화가 다항식과 관련이없는 경우. 비슷한 구조가 있습니까?

일부 상황

이 질문을하는 나의 이유는 비모수 적 부트 스트랩과 베이지안 부트 스트랩의 유사점을보고 있다는 것입니다. 또한 위의 3 차원 심플 렉스의 색상이 지정된 영역의 패턴이 보로 노이 다이어그램과 같은 모양이어야합니다. 이것에 대해 생각할 수있는 한 가지 방법 (Pascal의 Triangle / Simpex ( http://www.math.rutgers.edu/~erowland/pascalssimplices.html ))이 생각납니다. 컬러 영역의 크기가 2 차원 경우 파스칼 삼각형의 2 행, 3 차원 경우 파스칼 4 면체의 3 행을 따릅니다. 이것은 다항 분포와의 관계를 설명하지만 여기서는 정말 깊은 물 속에 있습니다 ...


2
장난! (평소대로)하지만 양말 연결이 그리워요.
Xi'an

글쎄, 나는 양말로 교체를 시작했다. 그러나 나는 베이지안 부 스트랩에 대해 생각하기 시작했습니다. 한 가지는 다른 것으로 이어졌고, 이것이 내가 여기서 끝낸 방식입니다.)
Rasmus Bååth

2
@ Xi'an 어쩌면 베이지 색 마스코트가되어야하는 강아지보다는 양말일까요?
Tim

답변:


14

이 두 분포는 마다 다릅니다 .n4

표기법

격자 점은 정수 좌표를 갖도록 인수 심플 렉스의 크기를 조정합니다 . 이것은 아무것도 변경하지 않으며, 표기법을 조금 덜 성가신 것으로 생각합니다.n

에서 점 , ..., 의 볼록 껍질로 주어진 -simplex 라고 합시다 . . 다시 말해, 이것은 모든 좌표가 음이 아닌 점과 좌표의 합이 지점 입니다.( n - 1 ) ( n , 0 , , 0 ) ( 0 , , 0 , n ) R n nS(n1)(n,0,,0)(0,,0,n)Rnn

하자 세트 나타내는 격자 점 IE에서 해당 점 모든 좌표가 일체형이다.SΛS

경우 격자 점, 우리하자 그 나타낸다 보로 노이 셀 에 해당 지점으로 정의 어느이다 (엄밀) 가까이에 의 다른 포인트보다 .V P S P ΛPVPSPΛ

에 두 가지 확률 분포를 넣을 수 있습니다 . 하나는 다항식 분포이며 점 은 확률이 입니다. 다른 하나는 Dirichlet 모델 이라고하며 , 각 에 의 부피에 비례하는 확률을 할당합니다 .( 1 , . . . , N ) 2 - N , N ! / ( a 1 ! a n ! ) P Λ V PΛ(a1,...,an)2nn!/(a1!an!)PΛVP

매우 비공식적 인 정당성

다항식 모델과 Dirichlet 모델은 일 때마다 에 대해 다른 분포를 제공한다고 주장합니다 .n 4Λn4

이를 확인하려면 대소 문자 및 점 및 . 와 는 벡터 의한 변환을 통해 합동 한다고 주장합니다 . 이는 와 의 부피가 동일하므로 Dirichlet 모델에서 와 의 확률이 같습니다. 반면, 다항식 모델에서는 확률이 서로 다릅니다 ( 및 ). 분포가 같을 수 없습니다.A = ( 2 , 2 , 0 , 0 ) B = ( 3 , 1 , 0 , 0 ) V A V B ( 1 , 1 , 0 , 0 ) V A V B A B 2 44 ! / ( 2 ! 2 ! ) 2 4n=4A=(2,2,0,0)B=(3,1,0,0)VAVB(1,1,0,0)VAVBAB244!/(2!2!)244!/3!

와 가 하다는 사실 은 다음의 그럴듯하지만 명백하지 않은 (그리고 다소 모호한) 주장에서 됩니다.V BVAVB

개연성 제 : 형상 및 크기 전용의 "바로 이웃"에 의해 영향을 (즉, 해당 포인트에서 다를 벡터로 같은 모양 , 여기서 과 다른 장소에있을 수 있음) P Λ P ( 1 , - 1 , 0 , ... , 0 ) 1 - 1VPPΛP(1,1,0,,0)11

와 의 "즉시 이웃"의 구성이 동일하다는 것을 알 수 , 와 가 합치합니다.B V A V BABVAVB

경우 , 우리가 동일한 게임을 플레이 할 수 및 예를 들어 .A = ( 2 , 2 , n - 4 , 0 , , 0 ) B = ( 3 , 1 , n - 4 , 0 , , 0 )n5A=(2,2,n4,0,,0)B=(3,1,n4,0,,0)

나는이 주장이 완전히 명백하다고 생각하지 않으며, 약간 다른 전략 대신에 그것을 증명하지 않을 것이다. 그러나 이것이 대한 분포가 다른 이유에 대한보다 직관적 인 답변이라고 생각합니다 .n4

엄격한 증거

위의 비공식적 정당성에서 와 같이 와 를 취하십시오 . 와 가 하다는 것을 증명하면 됩니다.B V A V BABVAVB

감안 , 우리는를 정의한다 다음과 같이 점의 집합 인 ,되는 . (더 소화하기 방식으로 : . 는 최고 와 최저 차이가 1보다 작은 지점 세트입니다 .)W P W P ( X 1 , ... , X의 N은 ) S 최대 1 i가 N ( I - P I ) - 최소 1 I N ( ip i ) < 1 v i = aP=(p1,,pn)ΛWPWP(x1,,xn)Smax1in(aipi)min1in(aipi)<1W P v ivi=aipiWPvi

우리는 것을 보여줍니다 .VP=WP

1 단계

클레임 : .VPWP

이것은 매우 간단합니다 : 그 가정 하지 않을 . 하자 하고, (일반성의 손실없이) 가정이 , . 부터 , 우리는 또한 알고 .W P v i = x ip i v 1 = max 1 i n v i v 2 = min 1 i n v i v 1v 21 n i = 1 v i = 0 v 1X=(x1,,xn)WPvi=xipiv1=max1inviv2=min1inviv1v21i=1nvi=0v1>0>v2

이제 . 이후 및 음이 아닌 좌표가 모두 그렇게 , 그리고 그 다음 따라서 그리고 . 한편, 입니다. 따라서 는 와 최소한 가깝기 때문에 . 이것은 를 보완 합니다.P X Q Q S Q Λ는 거라고 I S t (2) ( X , P ) - D S t (2) ( X , Q가 ) = v 2 1 + v 2 2(Q=(p1+1,p21,p3,,pn)PXQQSQΛX Q P X V P V pW Pdist2(X,P)dist2(X,Q)=v12+v22(1v1)2(1+v2)2=2+2(v1v2)0XQPXVPVpWP

2 단계

주장 : 는 쌍으로 분리되어 있습니다.WP

그렇지 않다고 가정하십시오. 하자 및 에서 별개의 포인트 수 및하자 . 이후 와 에서 뚜렷하고 모두 ,이 있어야 하나 개의 인덱스 여기서 , 한 곳 . 일반성을 잃지 않으면 서 및 가정합니다 . 재정렬하고 합하면 됩니다.Q = ( q 1 , , q n ) Λ X W PW Q P Q Λ i p iq i + 1 p iq i - 1 p 1q 1 + 1 p 2q 2P=(p1,,pn)Q=(q1,,qn)ΛXWPWQPQΛipiqi+1piqi1p1q1+1q 1p 1 + p 2q 22p2q21q1p1+p2q22

이제 숫자 과 고려하십시오 . 사실 그에서 우리가 . 마찬가지로 는 임을 의미합니다 . 이것들을 합하면 가되고 모순이 .x 2 X W P x 1p 1( x 2p 2 ) < 1 X W Q x 2q 2( x 1q 1 ) < 1 q 1p 1 + p 2q 2 < 2x1x2XWPx1p1(x2p2)<1XWQx2q2(x1q1)<1q1p1+p2q2<2

3 단계

우리는 이고 는 분리 되어 있음을 보여 . 커버 계수 제로 세트에 근접하고 그 다음 (제로 계수들의 세트까지). [ 와 가 둘 다 열려 있기 때문에 실제로 정확히 갖지만 필수는 아닙니다.]W P V P S W P = V P W P V P W P = V PVPWPWPVPSWP=VPWPVPWP=VP

이제 거의 끝났습니다. 점 및 . 와 가 이고 서로 번역되어 있음을 쉽게 알 수 있습니다. 차이가 될 수있는 유일한 방법은 의 경계 ( 와 가있는 얼굴 이외의 얼굴 )가``잘리는 ''것입니다 하나 또는 그러나 다른 없습니다. 그러나 경계의 이러한 부분에 도달 하려면 또는 의 하나의 좌표 를 적어도 1만큼 변경해야 에서B = ( 3 , 1 , n - 4 , 0 , , 0 ) W A W B S A B W A W B S A B W A W B S A B W A W B W AA=(2,2,n4,0,,0)B=(3,1,n4,0,,0)WAWBSABWAWBSABWA및 어쨌든. 따라서, 비록 유리한 점에서 보면 서로 다른 작업을 수행 와 의 차이의 정의에 의해 픽업되기에 너무 멀리 떨어져 및 , 따라서 및 합동이다.WBSABWAWBWAWB

이 것을 다음 다음 및 그들이 다항 모델에서 서로 다른 확률에도 불구하고, 동일한 볼륨, 따라서 디리클레 모델 양수인들에게 동일한 확률을 가지고있다.V BVAVB


와우 감사! 그래서 실수로 I 추측이었다 기대했다 약간의 대응 ...
라스무스 바트
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.