체제 에서 공과 빈 분석 : 간격


23

우리가 던지고있다 가정 에 공을 빈 (bin), . 하자 빈에서 끝나는 공의 숫자 , 무거운 빈, 수 X_ \ 분 수 가벼운 빈, 그리고 X는 _ {\ mathrm {초 - 최대}} 두 번째 무거운 빈합니다. 대략 X_i-X_j \ sim N (0,2m / n) 이므로 | X_i-X_j | = \ 쎄타 (\ SQRT {m / N}) 임의의 두 고정 난을, J . 유니온 바운드를 사용하면 X _ {\ max}-X _ {\ min} = O (\ sqrt {m \ log n / n}) ; 아마도 n / 2 를 고려하여 일치하는 하한을 얻을 수 있습니다.n m n X imnmnXiiXmaxXminXsecmax| X iX j | = Θ ( XiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n)n/2분리 된 쓰레기통 쌍. 이 (완전히 공식적인 것은 아님) 논쟁으로 인해 XmaxX _ {\ min} 사이의 간격 XminΘ(mlogn/n) 가능성이 높습니다.

XmaxX _ {\ mathrm {sec-max}} 사이의 간격에 관심이 Xsecmax있습니다. 위에서 설명한 인수는 XmaxXsecmax=O(mlogn/n) 일 가능성이 높지만 logn 요소가 불필요한 것으로 보입니다. . X_ \ max-X _ {\ mathrm {sec-max}} 의 분포에 대해 알려진 것이 XmaxXsecmax있습니까?

보다 일반적으로, 각 공이 각 빈에 대해 음수가 아닌 점수 와 연관되어 있고 , 우리는 m 공 을 던진 후 각 빈의 총 점수에 관심 이 있다고 가정하십시오 . 일반적인 시나리오는 (0, \ ldots, 0,1,0, \ ldots, 0) 형식의 점수에 해당합니다 (0,,0,1,0,,0). 빈의 순열에 따라 점수의 확률 분포가 변하지 않는다고 가정하십시오 (일반적인 시나리오에서는 모든 빈이 평등하다는 사실에 해당합니다). 점수 분포가 주어지면 첫 번째 단락의 방법을 사용하여 X _ {\ max}-X _ {\ min} 에 대한 좋은 경계를 얻을 수 XmaxXmin있습니다. 바운드에는 \ sqrt {\ log n} 의 요소가 포함됩니다.logn그것은 노멀 바운드에서 나옵니다 (정규 변수의 꼬리 확률을 통해). X _ {\ max}-X _ {\ mathrm {sec-max}}의 경계에 관심이 있다면이 요소를 줄일 수 있습니까 XmaxXsecmax?


각 점수는 [0,1]에 있습니까?
닐 영

중요하지 않습니다. 항상 [0,1] 에 있도록 크기를 조정할 수 있습니다 [0,1].
유발 Filmus

답변:


21

답 : Θ(mnlogn) .

중심 한계 정리의 다차원 버전을 적용하면 벡터 에 갖는 무 변량 다변량 가우스 분포가 있음을 알 수 있습니다 및 아래에서 가우스 벡터 라고 가정합니다 (거의 가우스 벡터뿐만 아니라). 모든 분산 가우스 랜덤 변수 를 추가합시다 ( 는 모든 독립적 임). 즉,하자 V a r [ X i ] = m ( 1(X1,,Xn)COV(XI,XJ)=-m/n은2. XZm/n2XiZXi( Y 1 Y 2 Y n )=( X 1 +Z X 2 +Z X n +Z). (Y1

Var[Xi]=m(1n1n2),
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZXi
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
가우스 벡터 . 이제 각 에는 분산 . 이며 모든 는 독립적입니다. (Y1,,Yn)Yim/n
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

참고 . 따라서 원래 문제는 를 찾는 문제와 동일합니다 . 모든 가 분산 갖는 경우를 간단히 분석하기 위해 먼저 살펴 보겠습니다 .YiYj=XiXjYmaxYsecmaxYi1

문제. 우리는 독립적 인 가우스 rv 을 평균 와 분산 합니다. 의 예상치를 추정하십시오 .nγ1,,γnμ1γmaxγsecmax

답변 : .Θ(1logn)

비공식 증거. 이 문제에 대한 비공식적 인 해결책은 다음과 같습니다 (정식으로 만드는 것은 어렵지 않습니다). 답은 평균에 의존하지 않기 때문에 이라고 가정합니다 . 하자 여기서 . 우리는 (약간 큰 ), μ=0Φ¯(t)=Pr[γ>t]γN(0,1)t

Φ¯(t)12πte12t2.

참고

  • Φ(γi) 는 에 균일하고 독립적으로 분포되어 있습니다 .[0,1]

  • Φ(γmax) 는 중에서 가장 작습니다 .Φ(γi)

  • Φ(γsecmax) 는 중에서 가장 작은 것 입니다.Φ(γi)

따라서 에 가까운 과 근접이고 (아무 농도 없지만 우리 걸치는 경우 ' 상수에 대한 관심 t 이러한 추정값은 충분하지만, 사실 상수에 관심이 있다면 꽤 좋은 편이지만 정당화가 필요합니다). 위한 수식을 사용하여 , 우리는 얻을 Φ(γmax)1/nΦ(γmax)2/nΦ¯(t)

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

따라서 는 whp입니다. 입니다. 우리는,이 γmax2γsecmax2Θ(1)γmaxγsecmax=Θ(logn)

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

QED

우리는 얻을

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

우리가 임의의 점수를 가질 때도 같은 주장이 이루어집니다. 임을 나타냅니다

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
감사! 다음에 다변량 가우시안 근사를 시도하는 것을 기억할 것입니다.
유발 Filmus

5
Yury, 당신은 " 모든 분산 가우시안 벡터 를 추가합시다 . 가우시안 벡터 . 이제 각 는 분산 을 갖고 모든 는 아닙니다 상관 관계 ... . " 이 부분을 확장 할 수 있습니까? 가 ? 경우] 의 의존, 그리고 의 독립된 (또는 균일 동일)이며, 어떻게 수 의 독립적 일? (단순한 트릭처럼 보이지만 이해가되지 않습니다.) 감사합니다. Zm/n2Xi(Y1,,Yn)Yim/nYiYiYj=XiXjZi=ZjXiZiYi
닐 영

1
@NealYoung, 그래, 우리는 변수가있는 경우 부정적인 페어의 상관 관계 등을 모두 공분산 이다 동일 , 우리는 추가 할 수있는 하나의 새로운 임의의 변수 모두 그러한 합계는 독립적입니다. 또한 변수가 양의 상관 관계를 가지고 있고 모든 공분산이 와 같으면 모든 차이에서 독립적 인 단일 rv 를 뺄 수 있습니다 . 그러나 이제 는 독립적이 아니라X1,,XnCov(Xi,Xj)ZXiCov(Xi,Xj)ZZXiZ=α(X1++Xn)일부 스케일링 매개 변수 . α
Yury

1
아 알 겠어요 적어도 대수적으로, 그것이 쉬는 것은 Z와 각 의 쌍별 독립입니다 . 매우 시원합니다. Xi
Suresh Venkat

1
이 인수는 이제 EC'14 종이에 (속성으로) 나타납니다 dl.acm.org/citation.cfm?id=2602829를 .
유발 Filmus

13

첫 번째 질문으로 가 이것은 입니다.XmaxXsec-max

o(mnlog2lognlogn).
o(m/n)

무작위 실험을 다음 대안과 비교하십시오. 첫 번째 버킷 중 최대로드로 설정하십시오 . 하자 마지막의 최대 부하 일 버킷.X1n/2X2n/2

고려할 때, 의 상한 입니다. 또한 가능성이 적어도 절반 인 입니다. 따라서 대략적으로 말하면 는.|X1X2|XmaxXsecmax|X1X2|=XmaxXsecmaxXmaxXsecmax|X1X2|

를 공부하려면 확률이 높은 볼은 첫 번째 빈에 던져지고 마지막 빈에 대해서도 마찬가지입니다 . 따라서 과 는 각각 볼을 빈에 넣을 때 기본적으로 최대 하중과 같이 분산됩니다 .|X1X2|m/2±O(m)n/2n/2X1X2m=m/2±o(m)n=n/2

이 분포는 잘 연구되었고,이 주장에 대해 운 좋게도 그 평균에 집중되어 있습니다. 예를 들어, 인 경우 확률이 높은 은 최대이 답변의 맨 위에 표시되는 양만큼 예상과 다릅니다 [ Thm. 1 ]. (참고 : 유리의 대답을 고려할 때이 상한은 느슨합니다.) 따라서 높은 확률로 및 도 최대만큼 많이 다르므로 및 은 이만큼 많이 다릅니다.mnlog3nX1X1X2XmaxXmaxsec

반대로, 어떤 에 대해 이면 이상 (순진한 연합으로) 적어도 나는 이것이 예를 들어 요인 내에서 의 기대치를 제공해야한다고 생각합니다 .tPr[|X1X2|t]3/4Pr[XmaxXsec-maxt]

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
1(1/4)(1/2)=1/4.XmaxXsec-max

Thm을 보면. 1, 기대치와의 차이점은 이며, 작성한 내용이 아닙니다. 그것은 여전히 보다 훨씬 낫습니다 . O((m/n)loglogn)O((m/n)logn)
유발 Filmus

Thm. 확률 대해 1 (제 3의 경우)의 경우, 확률 의 경우 최대 빈 (n 빈의 m 공)은 내 수학에 따르면 ( ) 항은 의 추가 절대 항으로 확장됩니다.내가 무엇을 잘못하고 있지? ϵ>01o(1)
mn+2mlognn1(1±ϵ)loglogn2logn.
±ϵO(ϵ)1δ=1O(δ)±ϵ
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
닐 영

아-네 말이 맞아 나는 제곱근 내부를 빼고 이것이 내 그림을 얻는 방법입니다.
유발 Filmus
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.