동일한 모집단의 다중 샘플링에서 교차 가능성


10

사례는 다음과 같습니다.

  • 인구는 10,000 개입니다. 각 항목에는 고유 한 ID가 있습니다.
  • 무작위로 100 개의 항목을 선택하고 ID를 기록합니다.
  • 100 개 항목을 다시 인구 집단에 넣었습니다.
  • 무작위로 다시 100 개의 아이템을 골라 ID를 기록한 후 교체합니다.
  • 전체적으로이 무작위 샘플링을 5 번 반복합니다

5 개의 랜덤 샘플링에서 개의 항목이 나타날 확률은 얼마입니까?X

나는 통계에 정통하지 않습니다. 이것이 맞 습니까?X=10

  • 각 샘플링에 대해 10,000에서 100 개 항목의 가능한 조합 수는binom(10000,100)
  • 100 개 항목의 가능한 모든 조합 중 조합은 10 개의 특정 항목을 포함합니다binom(9990,90)binom(100,10)
  • 10 개의 특정 항목을 가질 확률은(binom(9990,90)binom(100,10))/binom(10000,100)
  • 5의 거듭 제곱에 대한 계산 된 확률은 5 개의 독립 샘플링을 나타냅니다.

본질적으로 우리는 5 개의 독립적 인 초 지오메트리 확률을 계산 한 다음이를 곱하는 것입니까? 어딘가에 한 걸음 빠진 것 같습니다.


3
무언가를 한 번 반복하면 두 번 반복한다는 뜻입니다. 5 회 반복하지 않는 것은 6 번 반복한다는 것을 의미합니까?
Glen_b-복지 주 모니카

답변:


3

재귀 적으로 확률을 계산하십시오.

를 멤버 의 모집단에서 항목 의 모든 독립 드로우 에서 정확하게 값 가 선택 될 확률로 하자 . ( 분석 기간 동안 과 고정하고 명시 적으로 언급하지 않아도됩니다.)ps(x)x0xks1knk>0nk

하자 정확히 경우 확률 될 값은 처음에 선택 무, 다음 중은 마지막 무승부로 선택됩니다. 그런 다음 요소 의 요소에 대한 하위 집합이 있고 나머지 요소 의 하위 집합 이 인구 의 다른 구성원과 별도로 선택 되므로,ps(xy)ys1xy(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

총 확률 법칙

ps(x)=y=xkps(xy)ps1(y).

들면 , 그것은 확실성의 이 개시 분포이다.s=1x=k

반복 을 통해 전체 분포를 얻는 데 필요한 총 계산 은 입니다. 합리적으로 빠를뿐만 아니라 알고리즘도 쉽습니다. 위험한 프로그래머를 기다리는 한 가지 함정은 이러한 확률이 매우 작고 언더 플로 부동 소수점 계산이 될 수 있다는 것입니다. 다음 구현은 배열 열 에서 값을 계산하여이를 방지합니다 .sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

질문에 대한 답변은 및 을 통해 얻습니다 . s=5, n=10000=104k=100=102 출력은 배열이지만 대부분의 숫자는 너무 작아서 매우 작은 에 집중할 수 있습니다 . 해당하는 처음 네 개의 행은 다음과 같습니다 .101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

출력은

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

값은 행에 레이블을 지정하고 값은 열에 레이블을 지정합니다. 5 열은 5 개 샘플 모두에 하나의 요소가 나타날 가능성이 적고 (약 100 만 개) 5 개 샘플 모두에 2 개 이상의 요소가 나타날 가능성은 없습니다.xs

이러한 기회가 얼마나 작은 지 보려면 해당 로그를보십시오. 10 진법은 편리하며 많은 숫자가 필요하지 않습니다.

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

출력은 소수점 뒤에 몇 개의 0이 있는지 알려줍니다.

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

맨 위 행의 숫자는 값입니다 . 예를 들어, 모든 5 개 개의 샘플에 표시 정확히 3 값의 기회는 계산에 의해 발견 주고, 실제로이있다 전과 0을 첫 번째 유효 숫자. 수표로, 마지막 값 의 둥근 버전 . (첫 번째 샘플이 다음 네 샘플에 다시 나타날 가능성을 계산)은xexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

방금 비슷한 문제가 발생했지만 이것이 올바른 해결책인지 모르겠지만 다음과 같이 접근했습니다.

당신의 발생에 관심이 5 개 샘플에있는 항목 의 항목 항목 총. 흰색 공과 검은 공으로 항아리를 생각할 수 있습니다. 공을 꺼내고 는 세트에 모든 흰색 공이 있을 확률입니다 . 이 작업을 번 (독립적으로) 수행하면 곱합니다 .X10010,000X10,000X100phX5p=ph5

나는 한 걸음 더 나아가서 이항 분포 주위를 감쌀 수도 있습니다 : 확률 (세트에 모든 항목이있을 확률)로 머리에 나오는 동전이 있고 그것을 번 , 머리 를 얻을 확률 ? .ph55p=(55)ph5(1ph)55=ph5


0

5 개의 랜덤 샘플링에서 개의 항목이 나타날 확률은 얼마입니까?X

Hans의 말을 바탕으로 나머지 10000- 중에서 100 및 100- id 의 각 샘플에서 항상 동일한 id를 얻고 싶습니다 . 주어진 표본에 대해 그렇게 할 확률은 가능한 성공 상태를 가진 10000의 모집단에서 100을 그리는 성공에 대한 초기 하 함수에 의해 제공됩니다 . . 5 개 샘플의 경우 합니다.XXXXXP=(XX)(10000X100X)(10000100)P5

그러나, 우리 는 공유 된 id를 알고 있다고 가정하고, 그 id 를 선택하는 방법을 선택할 . 따라서 최종 답변은 입니다.X(10000X)X(10000X)P5


" " 는 무엇입니까 ? 당신이 그것을 밝힐 때 까지이 대답을 이해하는 것은 불가능합니다. x
whuber

3 년 전의 기억이 기억 나지 않지만 아마도 질문에서와 같은 X 일 것입니다.
Hao Ye

확인. 그러나 당신의 공식은 무엇을 정당화합니까? 과 같은 간단한 검사 (공식에서 확률이 이므로 다른 가능성을 완전히 배제합니다!)가 잘못되었음을 나타냅니다. X=01
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.