Rademacher 랜덤 변수의 곱의 합


9

하자 값 복용 독립 확률 변수 일 수 또는 확률을 각각 0.5. 합계 . 확률 상한을 설정하고 싶습니다 . 내가 지금 가지고있는 가장 좋은 범위는 여기서 c 는 범용 상수입니다. 이것은 간단한 Chernoff 범위의 적용에 의해 확률 Pr (| x_1 + \ dots + x_n | <\ sqrt {t})Pr (| y_1 + \ dots + y_n | <\ sqrt {t})의 경계를 낮춤 으로써 달성됩니다. 이 범위보다 훨씬 더 나은 것을 얻을 수 있습니까? 우선은 적어도 얻을 수 있습니까x1xa,y1yb+11S=i,jxi×yjP(|S|>t)2ectmax(a,b)cPr(|x1++xn|<t)Pr(|y1++yn|<t)ectab . 하위 가우시안 꼬리를 얻을 수 있다면 아마도 가장 좋을 것이지만 우리는 그것을 기대할 수 있습니다 (그렇지 않다고 생각할 수는 없습니다).


Chernoff 바운드를 직접 적용하는 것을 고려 했습니까 ? 당신이 뭔가를 할 수있을 것S
E[exp(λS]=E[λijXiYj]=E[λ(iXi)(jYj)]
Dilip Sarwate

에 대한 경계가 분명히 개선 확률은 0이어야합니다. 그것은 "sub-Gaussian"꼬리 인 것 같습니다 :-). 또한 당신의 한계가 틀린 것 같습니다 : 끊임없이 변수 는이 질문의 조건을 만족시킵니다. 옵션 및 확률은 이지만 경계는 점근 같이 커질. t>ab1a=bt=a2112exp(ca)0a
whuber

모든 변수가 1 일 확률은 기하 급수적으로 감소합니다. 나는 당신의 의견을 이해한다고 생각하지 않습니다. 옵션 및 기재된 결합 제가보다 큰 합 확률로서 매우 사소 사실 이고a=bt=a21t212(a1)eln(2)c(a1/a)
user1189053

1
내 실수에 대해 정말 죄송합니다. 나는 위에서 균일하게 언급했다고 생각했다. 따라서 p = 1/2이고 불평등을 유지하기 위해 (필요한 경우) 상수보다 a와 b를 더 크게 취할 수 있습니다.
user1189053

2
내 눈이 나를 속이지 않는 한, 당신은 합계의 제품이 아니라 제품의 합계를 고려하고 있습니다. :-)
추기경

답변:


7

대수 관계

S=i,jxiyj=ixijyj

전시회 S두 개의 독립적 인 합의 곱으로 때문에(xi+1)/2(yj+1)/2 독립적 인 Bernoulli(1/2) 변이 X=i=1axi 이항입니다(a,1/2)배가되고 이동 된 변수. 따라서 그 평균은0 그리고 그 차이는 a. 비슷하게Y=j=1byj 의 평균을 가지고 0 그리고 분산 b. 다음을 정의하여 지금 표준화하십시오

Xa=1ai=1axi,

어떻게

S=abXaXb=abZab.

다음과 같이 높은 (및 정량화 가능한) 정확도 a 커지다 Xa표준 정규 분포에 접근합니다. 그러므로 우리가 대략하자S 같이 ab 두 표준 법선 곱의 곱입니다.

다음 단계는

Zab=XaXb=12((Xa+Xb2)2(XaXb2)2)=12(U2V2).

독립 표준 정규 변수의 제곱의 차이의 배수입니다 UV. 분포Zab( 특성 함수반전시켜) 분석적으로 계산할 수 있습니다 . pdf는 차수 0의 베셀 함수에 비례합니다.K0(|z|)/π. 이 함수는 지수 꼬리를 가지고 있기 때문에, 우리는 즉시 그 결론 대형을 위해ab 고정 t더 나은 근사값은 없습니다. Pra,b(S>t) 질문에 주어진 것보다.

다음 중 하나 이상이 개선 될 여지가 남아 있습니다. ab 크거나 꼬리가 아닌 지점 S 가까운 ±ab. 분포의 직접 계산S 보다 큰 지점에서 꼬리 확률의 곡선 테이퍼링 ab대략 넘어 abmax(a,b). CDF의이 로그 선형 도표S 다양한 가치를 위해 a (제목에 주어진) b (거의 같은 값에 걸쳐 a, 각 플롯에서 색상으로 구분) 진행 상황을 보여줍니다. 참고로, 제한의 그래프K0분포는 검은 색으로 표시됩니다. (때문에S 대칭이다 0, Pr(S>t)=Pr(S<t)네거티브 테일을 보는 것으로 충분합니다.)

피규어

같이 b CDF가 커지면 기준선에 가까워집니다.

이 곡률의 ​​특성을 규명하고 정량화하려면 이항 변량에 대한 정규 근사를보다 정밀하게 분석해야합니다.

베셀 함수 근사화의 품질은이 확대 된 부분 (각 플롯의 오른쪽 상단 모서리)에서 더 명확 해집니다. 우리는 이미 꼬리에 먼 곳에 있습니다. 대수 수직 스케일은 시간에 따라 실질적인 차이를 숨길 수 있지만a 에 도달 500 근사치가 좋습니다 |S|<ab.

삽입


분포를 계산하는 R 코드 S

다음은 실행하는 데 몇 초가 걸립니다. (36 조합의 수백만 확률을 계산합니다.ab.) 느린 시스템에서는의 더 큰 하나 개 또는 두 개의 값을 생략 a하고 b로부터 하부 플로팅 제한을 늘릴10300 주변에 10160.

s <- function(a, b) {
  # Returns the distribution of S as a vector indexed by its support.
  products <- factor(as.vector(outer(seq(-a, a, by=2), seq(-b, b, by=2))))
  probs <- as.vector(outer(dbinom(0:a, a, 1/2), dbinom(0:b, b, 1/2)))
  tapply(probs, products, sum)
}

par(mfrow=c(2,3))
b.vec <- c(51, 101, 149, 201, 299, 501)
cols <- terrain.colors(length(b.vec)+1)
for (a in c(50, 100, 150, 200, 300, 500)) {
  plot(c(-sqrt(a*max(b.vec)),0), c(10^(-300), 1), type="n", log="y", 
       xlab="S/sqrt(ab)", ylab="CDF", main=paste(a))
  curve(besselK(abs(x), 0)/pi, lwd=2, add=TRUE)
  for (j in 1:length(b.vec)) {
    b <- b.vec[j]
    x <- s(a,b)
    n <- as.numeric(names(x))
    k <- n <= 0
    y <- cumsum(x[k])
    lines(n[k]/sqrt(a*b), y, col=cols[j], lwd=2)
  }
}

1
아주 잘 했어요! 네 가지 표준 노멀의 곱의 cdf에 대한 정확한 형식을 얻을 수 있습니다. 네거티브 테일의 경우는 1/2 (1 + y BesselK[0,-y] StruveL[-1, y] - y BesselK[1,-y] StruveL[0, y])입니다. (a) OP의 경계가 수행되고, (b) 위에서 본 경우에 대한 정규 근사가 수행되는 방식, 즉a=5,b=7정확한 pmf 이산 솔루션을 사용하여 파생됩니다.
wolfies

1
@wolfies 네, 저도 그 표현을 얻었습니다. K0. 정확한 분포는 극단적 인 꼬리에서 벗어나기 때문에 더 이상 그 적분에 대한 분석을 수행하는 것이 가치가 없어 보입니다. 논리적 인 다음 단계는 꼬리를 좀 더 신중하게 분석하는 것인데, 이는 정규 근사치를 넘어서는 것을 의미합니다.
whuber

3

논평 : 나는 질문에서 어떤 종류의 rv를 더 잘 반영하기 위해 제목을 편집했다. 누구나 자유롭게 다시 편집 할 수 있습니다.

동기 부여 : 우리가 분포를 도출 할 수 있다면 상한에 정착 할 필요가 없다고 생각합니다 .|Sab|. ( 업데이트 : 우리는 Whuber의 의견과 답변을 볼 수 없습니다 ).

표시 Zk=XiYj,k=1,...,ab. 확인하기 쉽다Z의 분포는 XY'에스. 모멘트 생성 기능은

MZ(t)=E[ezt]=12et+12et=cosh(t)

또한 Z우선 쌍으로 독립되어 있습니다 : 변수 W=Z1+Z2 (물론 표시는 물론 가능) 지원 {2,0,2} 해당 확률로 {1/4,1/2,1/4}. 순간 생성 기능은

MW(t)=E[e(z1+z2)t]=14e2t+12+14e2t==14(e2t+1)+14(e2t+1)=142etcosh(t)+142etcosh(t)=cosh(t)cosh(t)=MZ1(t)MZ2(t)

나는 다음과 같이 완전한 독립성을 보유하고 있다고 의심하려고 노력할 것이다. Zij=XiYj. 그런 다음 체인 규칙에 따라

P[Zab,...,Z11]=P[ZabZa,b1,...,Z11]...P[Z13Z12,Z11]P[Z12Z11]P[Z11]

쌍으로 독립함으로써 우리는 P[Z12Z11]=P[Z12].
치다 P[Z13,Z12Z11]. Z13Z12 독립적 인 조건부 Z11 그래서 우리는

P[Z13Z12,Z11]=P[Z13Z11]=P[Z13]
쌍으로 독립하여 두 번째 평등. 그러나 이것은

P[Z13Z12,Z11]P[Z12Z11]P[Z11]=P[Z13,Z12,Z11]=P[Z13]P[Z12]P[Z11]

기타 (제 생각에). ( 업데이트 : 나는 틀렸다고 생각한다 . 독립은 아마도 모든 삼중 항을 위해 보유하고 있지만 전체 무리를 위해 보유하지는 않을 것이다. 따라서 다음은 단순한 무작위 보행의 분포를 유도하는 것이지, 질문에 대한 정답은 아닙니다-Wolfies 'and Whuber의 답변).

완전한 독립성이 실제로 유지된다면, 우리는 iid 이분법 rv의 합의 분포를 도출하는 임무를 갖는다

Sab=k=1abZk

후자를 시퀀스로 명확하게 해석하지는 않지만 간단한 랜덤 워크 처럼 보입니다 .

만약 ab=even 의 지원 S 짝수 정수입니다 [ab,...,ab] 0을 포함하여 ab=odd 의 지원 S 홀수 정수입니다 [ab,...,ab]0이 없습니다.

우리는 ab=odd.
표시m 의 수 Z가치를 지니고있다 1. Then the support of S can be written S{ab2m;mZ+{0};mab}. For any given m, we obtain a unique value for S. Moreover, due to symmetric probabilities and independence (or just exchangeability?), all possible joint realizations of the Z-variables {Z1=z1,...,Zab=zab} are equiprobable. So we count and we find that the probability mass function of S is,

P(S=ab2m)=(abm)12ab,0mab

Defining sab2m, and odd number by construction, and the typical element of the support of S, we have

P(S=s)=(ababs2)12ab

Moving to |S|, since if ab=odd, the distribution of S is symmetric around zero without allocating probability mass to zero, and so the distribution of |S| is obtained by "folding" the density graph around the vertical axis, essentially doubling the probabilities for positive values,

P(|S|=|s|)=(ababs2)12ab1

Then the distribution function is

P(|S||s|)=12ab11is,iodd(ababi2)

Therefore, for any real t, 1t<ab, we obtain the required probability

P(|S|>t)=1P(|S|t)=112ab11it,iodd(ababi2)

Note that the indication i=odd guarantees that the sum will run only up to values included in the support of |S| - for example, if we set t=10.5, still i will run up to 9, since it is constrained to be odd, on top of being an integer.


The number of negative values in (X1Y1,X1Y2,X2Y1,X2Y2) must be even. Therefore these four random variables (I presume they are four of your Zs--the notation is unclear) are not independent.
whuber

@whuber Thanks. The problem (my problem, that is), is that I keep getting independence in any specific example I work out. I will work the specific four variables you write.
Alecos Papadopoulos

Yes, it's tricky because distinct Zs are pairwise independent and (I believe) any three distinct Zs are independent, too. (I upvoted your answer because of its creative attack on the problem and I hope I am mistaken in my assessment of the lack of independence!)
whuber

@whuber Thanks again whuber, that's really supportive. I am thinking, what we need in order for the derivation of the distribution of S to be valid, is that all events {k=1abZk} are equiprobable. Is it possible for such a property to hold, while joint independence fails? I mean, joint independence is sufficient for equiprobability to hold, but is it also necessary?
Alecos Papadopoulos

I'm afraid I don't understand your notation, which appears to refer to an intersection of random variables (whatever that might mean).
whuber

3

Not an answer, but a comment on Alecos’s interesting answer that is too long to fit into a comment box.

Let (X1,...,Xa) be independent Rademacher random variables, and let (Y1,...,Yb) be independent Rademacher random variables. Alecos notes that:

Sab=k=1abZkwhereZk=XiYj

"… looks like a simple random walk”. If it were like a simple random walk, then the distribution of S would be symmetric 'bell-shaped unimodal' around 0.

To illustrate that it is not a simple random walk, here is a quick Monte Carlo comparison of:

  • triangle dots: Monte Carlo simulation of the pmf of S given a=5 and b=7
  • round dots: Monte Carlo simulation of a simple random walk with n=35 steps

enter image description here

Clearly, S is not a simple random walk; also note that S is not distributed on all the even (or odd) integers.

Monte Carlo

Here is the code (in Mathematica) used to generate a single iteration of the sum S, given a and b:

 SumAB[a_, b_] :=  Outer[Times, RandomChoice[{-1, 1}, a], RandomChoice[{-1, 1}, b]] 
                         // Flatten // Total 

Then, 500,000 such paths, say when a=5 and b=7, can be generated with:

 data57 = Table[SumAB[5, 7], {500000}];

The domain of support for this combination of a and b is:

{-35, -25, -21, -15, -9, -7, -5, -3, -1, 1, 3, 5, 7, 9, 15, 21, 25, 35}

1
+1 A simulation (or some such concrete example) has long been needed to give us a reference for further analysis. Your simulation can be made much more efficient (about 25 times faster) by noting that S factors as (ixi)(jyj). That immediately explains why no sufficiently large prime values can show up in your triangle chart--and forcibly demonstrates that S cannot have a "random walk" (scaled Binomial) distribution.
whuber

1
Instead of simulating you can quickly obtain the exact answer (for a and b both less than 1000, anyway) as rademacher[a_] := Transpose[{Range[-a, a, 2], Array[Binomial[a, #] &, a + 1, 0] /2^a}]; s[a_, b_] := {#[[1, 1]], Total[#[[;; , 2]]]} & /@ GatherBy[Flatten[Outer[Times, rademacher[a], rademacher[b], 1], 1], First]; ListLogPlot[s[5, 7]] Try it with, say, s[100,211].
whuber

@whuber re first comment - your factorisation is super neat! :) On my Mac, using: ......... WHuberSumAB[a_, b_] := Total[RandomChoice[{-1, 1}, a]] * Total[RandomChoice[{-1, 1}, b]] ... it is twice as fast as the Outer approach. Curious as to what code you are using? [Both approaches can, of course, be made faster using ParallelTable, etc]
wolfies

Try this: sum[n_, a_, b_] := Block[{w, p}, w[x_] := Array[Binomial[x, #] &, x + 1, 0] /2^x; p[x_] := RandomChoice[w[x] -> Range[-x, x, 2], n]; p[a] p[b]]. Then time Tally[sum[500000, 5, 7]]. For R aficianodos, the following does the same thing and takes only 50% longer than Mathematica: s <- function(n, a, b) (2 * rbinom(n, a, 1/2) - a)*(2 * rbinom(n, b, 1/2) - b); system.time(x <- table(s(5*10^5, 5, 7))); plot(log(x), col="#00000020").
whuber

@whuber - re comment2 - exact pmf: so you have S=(iXi)(jYj), where each sum of Rademacher's is a Binomial, and so we have the product of 2 Binomials. Why not write this up as an answer!? - it is pretty, neat, elegant and useful ...
wolfies
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.