차원 에서 두 개의 임의 단위 벡터의 스칼라 곱 분포


27

경우 xy 두 개의 독립적 인 임의의 단위 벡터이다 RD (균일 단위 구에 분포)는, 그 내적의 분포 (내적) 무엇 xy ?

나는 D 빠르게 분포를 증가함에 따라 (?) 평균이 0이되고 되고 더 큰 차원에서 분산이 감소

limDσ2(D)0,
하지만 \ sigma ^ 2 (D)에 대한 명시적인 공식이 σ2(D)있습니까?

최신 정보

나는 빠른 시뮬레이션을 실행했다. 먼저, D = 1000에 대해 10000 쌍의 임의 단위 벡터를 생성 D=1000하면 내적 분포가 완벽하게 가우시안임을 알 수 있습니다 (실제로 D = 100에 대해 이미 가우시안 D=100임). 왼쪽의 서브 플롯을 참조하십시오. 둘째, 1에서 10000 사이의 각 D 에 대해 D(단계가 증가함에 따라) 1000 쌍을 생성하고 분산을 계산했습니다. 로그-로그 플롯이 오른쪽에 표시되며 공식이 1 / D로 매우 근사하다는 것이 분명합니다 1/D. 하는 것으로는 대한 D=1D=2 이 공식도 제공 정확한 결과를 (그러나 나는 확실히 나중에 무슨 일 아니다).

랜덤 단위 벡터 사이의 내적


@ KarlOskar : 감사합니다.이 링크는 매우 관련이 있으며 실제로 내 질문 은 거의 중복되지만 상당히 아닙니다. 따라서 내적의 누적 분포 함수 인 대한 명시 적 공식 이 있습니다. 파생물을 사용하여 PDF를 얻은 다음 한도 를 연구 할 수 있습니다 . 그러나 수식은 베타 함수와 불완전한 베타 함수로 표시되므로 계산이 까다로울 수 있습니다. P{(x,y)>ϵ}D
아메바는

@KarlOskar : 의 단위 구에 대한 균일 분포로부터 . 이 분포에서 랜덤 벡터를 생성하려면 단위 분산을 사용하여 가우스에서 랜덤 벡터를 생성 한 다음 정규화 할 수 있습니다. RD
amoeba는 Reinstate Monica가

답변:


30

( 잘 알려진 바와 같이 ) 변량 정규 분포 를 정규화함으로써 단위 구 의 균일 분포 가 얻어지고 정규화 된 벡터 의 내적 는 그들의 상관 계수이기 때문에, 3에 대한 답 질문은 :SD1Dt

  1. u=(t+1)/2 에는 베타 분포가 있습니다.((D1)/2,(D1)/2)

  2. 의 분산 은 와 같습니다 (문제에서 추측 한대로).t1/D

  3. 의 표준화 된 분포는 의 비율로 정규성에 접근tO(1D).


방법

단위 벡터의 내적 의 정확한 분포 는 첫 번째 방향으로 두 번째 벡터의 구성 요소이기 때문에 기하학적으로 쉽게 얻을 수 있습니다 . 두 번째 벡터는 첫 번째 벡터와 독립적이며 단위 구에 균일하게 분포되어 있기 때문에 첫 번째 방향의 성분은 구의 좌표와 동일하게 분포됩니다. 첫 번째 벡터의 분포는 중요하지 않습니다.

밀도 찾기

그 좌표를 마지막으로함으로써, 의 밀도 는 단위 구체에서 와 사이의 높이에있는 표면적에 비례한다 . 그 비율은 높이의 벨트에서 발생하는 반경 필수적이다 원추형 절두체 아웃 구성 반경 높이의 , 및 기울기 . 확률이 비례하는 경우t[1,1]tt+dtdt1t2,SD21t2,dt1/1t2

(1t2)D21t2dt=(1t2)(D3)/2dt.

시키는 수반 . 이를 앞의 것으로 대체하면 확률 요소에 정규화 상수가 부여됩니다.u=(t+1)/2[0,1]t=2u1

fD(u)du(1(2u1)2)(D3)/2d(2u1)=2D2(uu2)(D3)/2du.

에 베타 분포 가 있다는 것은 즉각적입니다 . 왜냐하면 정의에 따라 밀도도 비례하기 때문입니다u=(t+1)/2((D1)/2,(D1)/2)

u(D1)/21(1u)(D1)/21=(uu2)(D3)/2fD(u).

제한 동작 결정

제한 동작에 대한 정보는 기본 기술을 사용하여 이로부터 쉽게 따릅니다. 를 통합하여 비례 상수 ; 것을 나타내는, 순간을 얻는다 (예를 들어, 베타 함수의 속성을 사용하여) 통합 될 수 편차는 와 정신과에 (체비 셰프의 정리에 의해, 가능성이 집중되고 어디서 근처 ); 상기 제한적인 분포는 다음에 비례 표준화 분포 밀도의 값을 고려하여 발견 의 작은 값fDΓ(n2)πΓ(D12)tkfD(t)1/D0t=0fD(t/D),t :

log(fD(t/D))=C(D)+D32log(1t2D)=C(D)(1/2+32D)t2+O(t4D)C12t2

여기서 는 적분 상수를 (로그) 나타냅니다. 아마도이 로그가 정규성에 접근하는 속도 (로그 밀도가 )는C12t2O(1D).

그림

이 그림은 단위 분산으로 표준화 된 에 대한 내적 밀도 와 제한 밀도를 보여줍니다. 의 값은 따라 증가 합니다 (표준 표준 밀도의 경우 파랑에서 빨강, 금, 녹색으로). 의 밀도 이 해상도 정상 밀도와 구별 될 것이다.D=4,6,100DD=1000


4
(+1) 감사합니다, @whuber, 이것은 훌륭한 답변입니다! "절두체"라는 단어를 언급 해 주셔서 감사합니다. 귀하가 귀하의 게시물을 게시하기 몇 분 전에 다른 답변을 수락했으며 지금은이를 거부하고 싶지 않습니다. 이해하시기 바랍니다. 둘 다 받아 들일 수없는 것이 유감입니다! 그건 그렇고, 그 대답과의 차이에 대한 표현 의 매우 간단한 증거를 주목 하십시오. 내적 곱의 분산은 구면 좌표의 분산과 동일하며 모든 의 합은 이어야합니다 . QED1/DD1
amoeba는 Reinstate Monica가

1
분산에 대한 훌륭한 관찰입니다.
whuber

2
@amoeba, 최근 활동으로 다시 여기에 관심을 가져 왔으며, 당신이 내 대답을 받아 들인 것에 대해 감사드립니다. 당신이 바뀌면 전혀 신경 쓰지 않을 것입니다.
ekvall

1
@ 학생 001 : 이것은 공정하고 관대 한 의견입니다. 나는 대답을 바꾸었다. 나는 또한 :) 그것을 만회하기 위해 upvote에 하나의 Q와 당신의 하나를 발견했다
아메바는 분석 재개 모니카 말한다

1
분포 @mat 하다의 . 따라서 간격에서 간격 으로 크기가 조정되고 이동 된 베타 분포가 됩니다. t2U1[0,1][1,1]
whuber

11

분포를 찾은 다음 표준 결과에 따라 분산을 찾습니다. 벡터 곱을 고려하여 코사인 형식으로 작성하십시오. 즉 여기서 는 와 사이의 각도 입니다. 마지막 단계에서 나는 모든 이벤트 와 대해 이것을 사용했습니다.이제 라는 용어를 고려하십시오 . 구 표면에 대해 가 균일하게 선택되므로 , 어떤 중요하지 않은 것이 분명하다

P(xyt)=P(|x||y|cosθt)=P(cosθt)=EP(cosθty),
θxyAB
EP(AB):=E[E[χAB]]=EχA=P(A).
P(cosθty)xy실제로 와 사이의 각도 만 중요합니다. 따라서 기대 내부의 항은 실제로 의 함수로 일정하며 라고 가정 할 수 있습니다그러면이래로 첫 번째 정규화 된 가우시안 벡터의 좌표 우리가 가지고 분산이 가우시안 의 점근 적 결과를 호출하여 이 용지 .xyyy=[1,0,0,].
P(xyt)=P(x1t).
x1Rn,xy1/n

분산의 명시적인 결과를 얻으려면 독립성에 의해 내적은 평균 0이고, 위에 표시된 것처럼 의 첫 번째 좌표처럼 분포되어 있다는 사실을 사용하십시오 . 이 결과로 를 찾는 것은 를 찾는 것과 같습니다 . 이제 건설 당 이므로 여기서 의 좌표 가 동일하게 분포 된 마지막 등식이 이어집니다 . 정리하면xVar(xy)Ex12xx=1

1=Exx=Ei=1nxi2=i=1nExi2=nEx12,
xVar(xy)=Ex12=1/n

고맙지 만 혼란스러워합니다. "원하는 결과"는 정확히 무엇이며 마지막 방정식의 결과는 어떻습니까? 최종 확률 분포는 의존해야합니다 . D
amoeba 말한다 Reinstate Monica

실제로 마지막 방정식에서 결과가 어떻게 나오는지 정확히 찾은 math.SE 스레드에서 설명합니다. 여기에는 베타 배포판 등이 포함되며 제한적인 동작은 분명하지 않습니다. 를 볼 수있는 더 간단한 직접 방법이 있어야한다고 생각합니다 . σ2(D)1/D
amoeba 말한다 Reinstate Monica

이후의 차원에 따라 달라집니다. 여기서 는 생성 된 가우스 벡터입니다. 오늘이나 내일 나중에 답변을 업데이트하겠습니다. x1=z1|z|1z
ekvall

자, 마지막 링크는 1 페이지의 세 번째 방정식에서 역 베타 함수 (계산하기를 두려워했습니다)와 관련된 표현의 한계를 제공하므로 추론을 완료하려면 구가 반경 경우 다음 (점근)로 분배된다 . 이는 단위 반경의 구면 분산이 배 더 작다 는 것을 의미합니다 . 즉그러나 여전히 우려 사항이 있습니다 .1에서 4까지의 를 확인 했으며 D = 1 또는 D = 2에 대한 분포가 정규 분포와 거리가 멀어도 가 정확한 차이 를 나타내는 것으로 보입니다 . 그 뒤에 더 깊은 이유가 있어야합니다. Dx1N(0,1)D1/DD1/D
아메바의 말에 따르면 Reinstate Monica는

@amoeba 예, 그 증거로 업데이트되었습니다.
ekvall

2

질문의 첫 부분에 답하려면 . 정의 의 생성물 요소 여기에서 로 표시된 및 의 는 및 의 공동 분포에 따라 분포 될 것이다 . 이후 이후 , Z=X,Y=XiYi

fZi(zi)=fZ1,,ZD(z1,,zD)dzi
ithXYZiXiYi
fZi(zi)=fXi,Yi(x,zix)1|x|dx
Z=Zi
fZ(z)=fZ1,,ZD(z1,,zd)δ(zzi)dz1dzd

두 번째 부분에서는 의 점근 적 동작에 대해 흥미로운 것을 말하고 싶다면 최소한 와 독립성을 가정 한 다음 CLT를 적용 해야한다고 생각 합니다.σXY

예를 들어, 당신은 가정하고자한다면 그 이다 IID가 함께 와 가있을 및 이라고 말합니다 .{Z1,,ZD}E[Zi]=μV[Zi]=σ2σ2(D)=σ2DlimDσ2(D)=0


고맙지 만 두 번째 부분이 혼란 스러워요. 와 는 물론 독립적이어야하는데, 이것을 질문에 추가하겠습니다. 당신이 말하는 그 , 그 소리 합리적인 만의 점근 행동 것입니다 ? 내가 찾고있는 표현은 에만 의존해야한다고 생각합니다 . 그건 그렇고 실수하지 않으면 2D 표시됩니다. 이것이 더 높은 차원에서도 사실인지 궁금합니다 ...XYσ2(D)=Var(zi)/DVar(zi)DVar(zi)=1/2
amoeba는 Reinstate Monica가

와 의 단위 길이 요구 사항을 감안할 때 가 독립적 일 수 있습니까? ziXY
ekvall

@ 톰 : 그런데, 이었다 착각 : 2d에 1, 그것이 와 동일한 1/2이다. 몇 가지 시뮬레이션 결과로 내 질문을 업데이트했습니다. 올바른 공식은 것 같습니다 . Var(zi)Var(z)1/D
amoeba는 Reinstate Monica가
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.