대체하지 않고 독립적 인 무작위 샘플의 교차점의 카디널리티 분포는 무엇입니까?

$S$ 는 $n\in\mathbb{N}$ 요소와 $a_1,a_2,...,a_m$ 보다 작은 양의 정수를 고정 또는 동등한 $n$ .

의 원소 $S$ 가 똑같이 가능성이 있기 때문에, $m$ 은 샘플링한다 $L_1, L_2,...,L_m$ 각각 개별적으로로부터 인출되는 $S$ 의 크기는, 여분없이 각각. $a_1,a_2,...,a_m$

$\left|L_1\cap L_2\cap\ ...\ \cap L_m\right|$ $\{0,1,...,\min\{a_1,a_2,...,a_m\}\}$

combinatorics

— 시원한 물
소스

재귀 적으로 계산하는 방법을 제공 할 수는 있지만 닫힌 양식 솔루션에 대해서는 알지 못합니다. 및 주어진 분포 함수의 명시 적 표현을 원 하십니까?

a_{1}, \dots, a_{m}

$a_1, \dots, a_m$

n

$n$

— Bridgeburners

@ 브리지 버너 레시피는 좋을 것입니다. 적어도이 문제를 공격하고 관련시키는 방법 / 방법을 제공 할 것입니다.

— llrs

재귀를 포함하지 않는 또 다른 접근법이 있습니다. 그래도 길이는 매개 변수에 의존하는 합계와 곱을 사용합니다. 먼저 표현을 한 다음 설명하겠습니다.

우리가

\begin{aligned} P & (| L_{1} \cap L_{2} \cap \dots \cap L_{m} | = k) \\ = \frac{(\binom{n}{k})}{\prod_{i = 1}^{n} (\binom{n}{a_{i}})} \sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) . \end{aligned}

$\begin{align} P &\bigl( | L_{1} \cap L_{2} \cap \cdots \cap L_{m} | = k \bigr) \\ &= \frac{\binom{n}{k}}{\prod_{i = 1}^{n} \binom{n}{a_{i}}} \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} -j - k}. \end{align}$

편집 : 이 모든 것을 작성하는 마지막에, 우리는 이항 계수를 초 기하 확률과 삼항 계수로 결합하여 표현을 조금 위에 통합 할 수 있음을 깨달았습니다. 그 가치가있는 것의 개정 된 표현은 여기에서 은 성공 상태를 갖는 의 모집단 에서 추첨을 취하는 초 지형 랜덤 변수 입니다.

\sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n}{j, k, n - j - k}) \prod_{l = 1}^{n} P (Hyp (n, j + k, a_{l}) = j + k) .

$\begin{equation} \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n}{j, k, n - j - k} \prod_{l = 1}^{n} P( \text{Hyp}(n, j + k, a_{l}) = j + k). \end{equation}$

Hyp (n, j + k, a_{l})

$\text{Hyp}(n, j + k, a_{l})$

a_{l}

$a_{l}$

n

$n$

j + k

$j + k$

유도

조합 주장을 좀 더 쉽게 추적 할 수 있도록 몇 가지 표기법을 살펴 보겠습니다. 전반적으로, 우리는 와 고정 된 것으로 간주 합니다. 우리는 사용할 것이다 주문의 컬렉션을 표시하기 위해 -tuples을 , 각각의 경우 , 만족을 $S$ $a_{1}, \ldots, a_{m}$ $\mathcal{C}(I)$ $m$ $(L_{1}, \ldots, L_{m})$ $L_{i} \subseteq S$

$|L_{i}| = a_{i}$ ; 과
$L_{1} \cap \cdots \cap L_{m} = I$ 입니다.

우리는 또한 동일 함 대신에 을 요구한다는 점을 제외하고는 동일한 컬렉션에 을 사용합니다 . $\mathcal{C}'(I)$ $L_{1} \cap \cdots \cap L_{m} \supseteq I$

중요한 것은 는 계산하기가 비교적 쉽다는 것입니다. 이는 이 모든 대한 과 동일 하므로 다른 값 사이의 상호 작용을 제거하기 때문 입니다. 각 에 대해 요구 사항을 만족하는 의 수 는 , 크기가 인 의 부분 집합을 선택하여 이러한 를 구성 할 수 있으므로다음으로 unioning . 그것은 다음과 같습니다 $\mathcal{C}'(I)$ $L_{1} \cap \cdots \cap L_{m} \supseteq I$ $L_{i} \supseteq I$ $i$ $i$ $i$ $L_{i}$ $\binom{|S| - |I|}{a_{i} - |I|}$ $L_{i}$ $S \setminus I$ $a_{i} - |I|$ $I$

| C^{'} (I) | = \prod_{i = 1}^{n} (\binom{| S | - | I |}{a_{i} - | I |}) .

$\begin{equation} | \mathcal{C}'(I) | = \prod_{i = 1}^{n} \binom{|S| - |I|}{a_{i} - |I|}. \end{equation}$

이제 원래 확률은 다음과 같이 를 통해 표현 될 수 있습니다 . $\mathcal{C}$

P (| L_{1} \cap L_{2} \cap \dots \cap L_{m} | = k) = \frac{\sum_{I : | I | = k} | C (I) |}{\sum_{all I \subseteq S} | C (I) |} .

$\begin{equation} P \bigl( | L_{1} \cap L_{2} \cap \cdots \cap L_{m} | = k \bigr) = \frac{ \sum_{I : |I| = k} | \mathcal{C}(I) | } { \sum_{\text{all $I \subseteq S$}} | \mathcal{C}(I) | }. \end{equation}$

여기서 두 가지 단순화를 할 수 있습니다. 먼저 분모는 둘째, 순열 인수는카디널리티를 통한 에만 의존. 이 때문에 의 서브셋 카디널리티 갖는 그것이 그 다음 여기서 은 카디널리티를 갖는 의 임의의 고정 된 서브 세트입니다.

| C^{'} (\emptyset) | = \prod_{i = 1}^{n} (\binom{| S |}{a_{i}}) = \prod_{i = 1}^{n} (\binom{n}{a_{i}}) .

$\begin{equation} | \mathcal{C}'(\emptyset) | = \prod_{i = 1}^{n} \binom{|S|}{a_{i}} = \prod_{i = 1}^{n} \binom{n}{a_{i}}. \end{equation}$

| C (I) |

$| \mathcal{C}(I) |$

I

$I$

| I |

$|I|$

(\binom{n}{k})

$\binom{n}{k}$

S

$S$

k

$k$

\sum_{I : | I | = k} | C (I) | = (\binom{n}{k}) | C (I_{0}) |,

$\begin{equation} \sum_{I : |I| = k} | \mathcal{C}(I) | = \binom{n}{k} | \mathcal{C}(I_{0}) |, \end{equation}$

I_{0}

$I_{0}$

S

$S$

k

$k$ .

한 걸음 물러서서 우리는 이제

| C (I_{0}) | = \sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) .

$\begin{equation} | \mathcal{C}(I_{0}) | = \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k}. \end{equation}$

하자 의 구별되는 서브 세트 정확히 하나 개의 원소를 첨가함으로써 형성 . 그런 다음 (이것은 인 경우 에 추가 요소가 포함되어 있지 않습니다.) 이제 계산 문제를 계산 문제로 변환하여 처리 방법에 대해 더 많이 알고 있습니다. 더 구체적으로, 우리는 $J_{1}, \ldots, J_{n - k}$ $S$ $I_{0}$

C (I_{0}) = C^{'} (I_{0}) ∖ (⋃_{i = 1}^{n - k} C^{'} (J_{i})) .

$\begin{equation} \mathcal{C}(I_{0}) = \mathcal{C}'(I_{0}) \setminus \biggl( \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr). \end{equation}$

L_{1} \cap \dots \cap L_{m} = I_{0}

$L_{1} \cap \cdots \cap L_{m} = I_{0}$

L_{1} \cap \dots \cap L_{m}

$L_{1} \cap \cdots \cap L_{m}$

I_{0}

$I_{0}$

C

$\mathcal{C}$

C^{'}

$\mathcal{C}'$

| C (I_{0}) | = | C^{'} (I_{0}) | - | ⋃_{i = 1}^{n - k} C^{'} (J_{i}) | = \prod_{l = 1}^{n} (\binom{n - k}{a_{l} - k}) - | ⋃_{i = 1}^{n - k} C^{'} (J_{i}) | .

$\begin{equation} | \mathcal{C}(I_{0}) | = | \mathcal{C}'(I_{0}) | - \biggl| \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr| = \prod_{l = 1}^{n} \binom{n - k}{a_{l} - k} - \biggl| \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr|. \end{equation}$

위의 공용체 표현식의 크기를 처리하기 위해 포함 제외를 적용 할 수 있습니다. 여기서 중요한 관계는 비어 있지 않은 , 이는 에 다수의 가 포함 된 경우 해당 조합도 포함하기 때문입니다. 또한 크기는. 따라서 $\mathcal{I} \subseteq \{ 1, \ldots, n - k \}$

⋂_{i \in I} C^{'} (J_{i}) = C^{'} (⋃_{i \in I} J_{i}) .

$\begin{equation} \bigcap_{i \in \mathcal{I}} \mathcal{C}'(J_{i}) = \mathcal{C}' \biggl( \bigcup_{i \in \mathcal{I}} J_{i} \biggr). \end{equation}$

L_{1} \cap \dots \cap L_{m}

$L_{1} \cap \cdots \cap L_{m}$

J_{i}

$J_{i}$

⋃_{i \in I} J_{i}

$\bigcup_{i \in \mathcal{I}} J_{i}$

| I_{0} | + | I | = k + | I |

$|I_{0}| + |\mathcal{I}| = k + |\mathcal{I}|$

\begin{aligned} | ⋃_{i = 1}^{n - k} C^{'} (J_{i}) | & = \sum_{\emptyset \neq I \subseteq {1, \dots, n - k}} (- 1)^{| I | - 1} | ⋂_{i \in I} C^{'} (J_{i}) | \\ = \sum_{j = 1}^{n - k} \sum_{I : | I | = j} (- 1)^{j - 1} \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) \\ = \sum_{j = 1}^{n - k} (- 1)^{j - 1} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k}) . \end{aligned}

$\begin{align} \biggl| \bigcup_{i = 1}^{n - k} \mathcal{C}'(J_{i}) \biggr| &= \sum_{\emptyset \neq \mathcal{I} \subseteq \{ 1, \ldots, n - k \}} (-1)^{| \mathcal{I} | - 1} \biggl| \bigcap_{i \in \mathcal{I}} \mathcal{C}'(J_{i}) \biggr| \\ &= \sum_{j = 1}^{n - k} \sum_{\mathcal{I} : |\mathcal{I}| = j} (-1)^{j - 1} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k} \\ &= \sum_{j = 1}^{n - k} (-1)^{j - 1} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k}. \end{align}$ (우리는 제한 할 이항 계수의 곱 때문에 여기에서의 값은 0이다 않는 모두 , 즉 )

j

$j$

j \leq a_{l} - k

$j \leq a_{l} - k$

l

$l$

j \leq min (a_{1}, \dots, a_{m}) - k

$j \leq \min(a_{1}, \ldots, a_{m}) - k$

마지막으로, 끝에있는 표현식을이상으로 합산하면 따라 청구되었습니다. $| \mathcal{C}(I_{0}) |$

| C (I_{0}) | = \sum_{j = 0}^{min (a_{1}, \dots, a_{m}) - k} (- 1)^{j} (\binom{n - k}{j}) \prod_{l = 1}^{n} (\binom{n - j - k}{a_{l} - j - k})

$\begin{equation} | \mathcal{C}(I_{0}) | = \sum_{j = 0}^{\min(a_{1}, \ldots, a_{m}) - k} (-1)^{j} \binom{n - k}{j} \prod_{l = 1}^{n} \binom{n - j - k}{a_{l} - j - k} \end{equation}$

— 제이슨
소스

모든 노력과 솔루션에 +1하지만,이 중 대부분 (및 다른 답변)을 이해하려면 수학을 연마해야합니다. 감사합니다

— llrs

이 문제를 해결하는 분석 방법을 모르지만 결과를 계산하는 재귀 적 방법이 있습니다.

들어 당신이 선택하고 중 요소 전에 선택되어있는합니다. 두 번째 추첨에서 과 교차 하는 요소를 선택할 확률은 초기 하 분포에 의해 제공됩니다. $m=2$ $a_2$ $n,$ $a_1$ $k \le \min\{a_1,a_2\}$ $L_1$

P (k ∣ n, a_{1}, a_{2}) = \frac{(\binom{a_{1}}{k}) (\binom{n - a_{1}}{a_{2} - k})}{(\binom{n}{a_{2}})} .

$P(k \mid n, a_1, a_2) = \frac{ {a_1 \choose k} {n - a_1 \choose a_2 - k} } {n \choose a_2}.$

결과 호출 할 수 있습니다동일한 논리를 사용하여 를 찾을 수 있습니다. 여기서 은 세 샘플의 교집합의 카디널리티입니다. 그때, $b_2.$ $P(b_3 = k \mid n, b_2, a_3),$ $b_3$

P (b_{3} = k) = \sum_{l = 0}^{min (a_{1}, a_{2})} P (b_{3} = k ∣ n, b_{2} = l, a_{3}) P (b_{2} = l ∣ n, a_{1}, a_{2}) .

$P(b_3=k) = \sum_{l=0}^{\min(a_1,a_2)} P(b_3=k \mid n, b_2=l, a_3) P(b_2 =l \mid n, a_1, a_2).$

각 . 는 단순히 이전 계산의 결과이고 는 다음을 호출 하기 때문에 후자의 계산은 수치 적으로 어렵지 않습니다. 초기 하 분포. $k \in \{0, 1, 2, \dots, \min(a_1,a_2,a_3)\}$ $P(b_2 = l \mid n, a_1, a_2)$ $P(b_3 = k \mid n, b_2=l, a_3)$

일반적으로 을 찾으 려면 다음과 같은 재귀 수식을 적용 할 수 있습니다. 에 대해 그리고 이라고 말하면 $P(b_m)$

P (b_{i} = k) = \sum_{l = 0}^{min (a_{1}, a_{2}, \dots, a_{i - 1})} P (b_{i} = k ∣ n, b_{i - 1} = l, a_{i}) P (b_{i - 1} = l),

$P(b_i=k) = \sum_{l=0}^{\min(a_1, a_2, \dots, a_{i-1})} P(b_i = k \mid n, b_{i-1}=l, a_i) P(b_{i-1}=l),$

P (b_{i} = k ∣ n, b_{i - 1} = l, a_{i}) = \frac{(\binom{l}{k}) (\binom{n - l}{a_{i} - k})}{(\binom{n}{a_{i}})},

$P(b_i = k \mid n, b_{i-1}=l, a_i) = \frac{{l \choose k} {n-l \choose a_i - k}} {n \choose a_i},$

i \in {2, 3, \dots, m},

$i \in \{2, 3, \dots, m\},$

P (b_{1}) = δ_{a_{1} b_{1}},

$P(b_1) = \delta_{a_1 b_1},$

b_{1} = a_{1} .

$b_1 = a_1.$

여기 R에 있습니다.

hypergeom <- function(k, n, K, N) choose(K, k) * choose(N-K, n-k) / choose(N, n)

#recursive function for getting P(b_i) given P(b_{i-1})
PNext <- function(n, PPrev, ai, upperBound) {
  l <- seq(0, upperBound, by=1)
  newUpperBound <- min(ai, upperBound)
  kVals <- seq(0, newUpperBound, by=1)
  PConditional <- lapply(kVals, function(k) {
    hypergeom(k, ai, l, n)
  })
  PMarginal <- unlist(lapply(PConditional, function(p) sum(p * PPrev) ))
  PMarginal
}

#loop for solving P(b_m)
P <- function(n, A, m) {
  P1 <- c(rep(0, A[1]), 1)
  if (m==1) {
    return(P1)
  } else {
    upperBound <- A[1]
    P <- P1
    for (i in 2:m) {
      P <- PNext(n, P, A[i], upperBound)
      upperBound <- min(A[i], upperBound)
    }
    return(P)
  }
}

#Example
n <- 10
m <- 5
A <- sample(4:8, m, replace=TRUE)
#[1] 6 8 8 8 5

round(P(n, A, m), 4)
#[1] 0.1106 0.3865 0.3716 0.1191 0.0119 0.0003
#These are the probabilities ordered from 0 to 5, which is the minimum of A

— 브리지 버너
소스

솔루션과 코드에 감사드립니다. 현상금을 수여하기 전에 다른 답변 방법이 오기를 기다립니다.

— llrs