교체없이 K 숫자의 합의 기대


9

각 숫자의 값이 다른 숫자가 주어지면 으로 표시되며 각 숫자를 선택할 확률은 각각 입니다.nv1,v2,...,vnp1,p2,...,pn

주어진 확률 ( 기반으로 숫자를 선택하면 해당 숫자 의 합에 대한 기대치는 무엇 입니까? 번호는 중복 번호를 포함 할 수 없도록 선택은 대체 되지 않습니다. 선택 항목이 교체되는 경우 숫자 의 합에 대한 기대 값은 와 같습니다. 여기서KKnKKKK×E(V)

E(V)=v1×p1+v2×p2+...+vn×pn.

게다가, 그 K 수 의 분산에 대한 기대는 어떻습니까?

빅 데이터 문제를 해결하는 CS PhD 학생이며 통계 배경이 없습니다. 나는 누군가가 대답으로 공식을 줄 수 있기를 기대합니다. 그러나 답이 수식으로 표현하기에 너무 복잡하거나 집중적 인 계산이 필요한 경우, 대략적인 대답이 전적으로 허용됩니다.

여기서 n 이 상당히 크다고 가정 할 수 있으며 확률은 매우 다양합니다. 실제로 이러한 확률의 값은 일련의 집계 쿼리를 기록하는 쿼리 로그에서 가져옵니다. 요점은 쿼리에 포함 된 각 숫자의 빈도가 상당히 왜곡 될 수 있다는 것입니다. 즉, 일부는 거의 쿼리되지 않지만 일부는 매우 자주 쿼리됩니다. 확률 분포는 정규 분포, zipf 분포 또는 기타 합리적인 대안이라고 가정 할 수 있습니다.

가치 분포는 가능한 분포의 연속적인 부분 집합입니다. 즉, 특정 분포를 나타내는 히스토그램이있는 경우이 문제와 관련된 모든 숫자는 단일 버킷 내의 숫자입니다.

K 값의 관점에서, 자주 쿼리되는 요소 수보다 항상 적은 것으로 가정 할 수 있습니다.


3
합계의 분산에 대한 기대치는 대체없이 달라질 수 있습니다. 대체품이 없으면 유한 모집단 보정 계수가 필요합니다. (이 직관적으로보기 위해, K = n 인 경우 합의 분산은 항상 같은 수이므로 합의 분산은 0입니다. K가 n에 가까워 질수록 합의 분산은 낮아집니다.)
zbicyclist

1
이 질문은 생각보다 까다로울 수 있습니다. 경우 고려 및 . 대체로 도출 된 두 값의 예상 합계는 이며 이는 물론 한 값의 예상 합계의 두 배입니다. 그러나 교체없이 그려진 두 값의 예상 합계는 분명히 경우를 제외하고 입니다. n=2(v1,v2)=(0,1)2p2v1+v2=12p2p1=p2=1/2
whuber

1
@zbicyclist 아마도 문제를 명확하게 말하지 않았을 것입니다. 나의 시나리오에서, K = N이면, 그 K 수의 분산은 0이 아닌 일반 모집단의 분산이 될 것이다.
SciPioneer

1
(1) 이것은 나에게 자기 연구 질문 처럼 보이지 않습니다 : 그것은 실제로 적용된 실제 문제처럼 보입니다. (2) 은 얼마나 클 수 있습니까? 모든 부분 집합을 열거 할 수있는 경우를 제외하고는 정확한 솔루션이 불가능 해 보입니다. (3) 빠른 열거를 제외하고 이 보다 훨씬 클 수 있다면 에 대해 무엇을 말할 수 있습니까? 예를 들어, 그것들이 다를 수 있습니까 , 아니면 모두 가깝 습니까? 이것은 대략적인 답변을 찾으려고 노력할 수 있습니다. nn20pi1/n
whuber

1
편집 해 주셔서 감사합니다. 더 많은 당신에 대한 정보를 알 수 , 의 및 더 나은. 예를 들어, 경우 대체를 사용한 샘플링 공식은 근사값이되어야합니다 (값이 거의없는 경우 값을 두 번 이상 선택하기 때문에). 가장 어려운 경우는 의 넓은 범위의 값이있는 곳이라고 생각합니다. 따라서 대부분의 값을 0으로 바꿀 수는 없지만 로 식별 할 수있는 수와 . NKvipiKmax(pi)1pipi>1/KiKN/2
whuber

답변:


2

이것은 아마도 정확하지만 아마도 그다지 유용하지 않은 대답의 본성 일 것입니다. Horvitz와 Thompson (1952)은 이러한 상황을 전반적으로 다루는 결과를 제공합니다. 이러한 결과는 예상 할 수있는 조합 표현의 관점에서 제공됩니다.

표기법과 일관성을 유지하고 널리 사용되는 표기법과 더 잘 일치하도록 몇 가지 수량을 재정의하겠습니다. 하자 인구의 요소 수있을 및 샘플 크기.Nn

하자 , 의 대표 주어진 값 모집단의 요소 , 및 선택의 확률 . 주어진 크기 표본에 대해 표본의 관측 값을 합니다.uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

바람직한 것은 샘플 총 의 평균 및 분산이다

i=1nvi.

주석에서 언급했듯이 순서대로 그려진 특정 샘플 를 선택할 확률 은 여기서 그림 의 초기 확률 은 에 의해 주어지고 , 그림 의 두 번째 확률 는 모집단에서 를 제거한 조건에 . 따라서 추후의 각 단위는 다음 단위에 대해 새로운 확률 분포를 초래합니다 (따라서 각각 다른 분포를 나타 내기 때문에 다른 표시 문자 선택).s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

거기 전체 모집단에서 를 포함 하는 크기 의 샘플 . 이것은 을 고려합니다샘플의 순열.

S(i)=n!(N1n1)
nuin!

하자 크기의 특정 샘플 나타내고 포함 . 그리고, 소자의 선택 확률 주어진다 합산 크기의 세트 이상이고 의 를 포함 하는 크기 의 모든 가능한 샘플 . (저는 혼란스러워 보이기 때문에 종이에서 표기법을 약간 변경했습니다.)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

마찬가지로 및 를 모두 포함하는 샘플 수로 . 그런 다음 모두 포함하는 표본의 확률을 정의 할 수 있습니다 여기서 합은 크기 가능한 모든 샘플 크기의 함유하는 것이 및 .

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

그런 다음 예상 값은

E(i=1nvi)=i=1NP(ui)Vi.

분산은 논문에서 명시 적으로 도출되지 않았지만, 번째 모멘트 및 교차 제품 q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

다시 말해, 이러한 계산을 수행하려면 가능한 모든 하위 집합을 거쳐야하는 것처럼 보입니다. 그러나 이것은 더 작은 값에 대해 수행 될 수 있습니다 .n

Horvitz, DG 및 Thompson, DJ (1952) 유한 한 우주를 대체하지 않고 샘플링을 일반화했습니다. 미국 통계 협회 저널 47 (260) : 663-685.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.