나는 다음과 같은 질문을 해석합니다. 백서 장을 항아리에 넣고 마치 한 사람의 이름으로 라벨을 붙인 것처럼 항아리의 내용물을 완전히 저으면서 무작위로 232 개를 추출한 것처럼 샘플링을 수행했다고 가정합니다 . 사전에 12 장의 티켓이 빨간색으로 표시되었습니다. 선택한 티켓 중 정확히 두 개가 빨간색 일 가능성은 무엇입니까 ? 최대 2 개의 확률36323212 티켓이 빨간색 ?
정확한 공식을 얻을 수 있지만 이론적 인 작업을 많이 수행 할 필요는 없습니다. 대신, 우리는 단지 티켓이 항아리에서 뽑힐 때의 기회를 추적합니다. 시간에 그들의 철회되고, 정확히 그 기회하자 내가 빨간색 티켓을 기록 할 볼 한 쪽 ( I , m을 ) . 시작하려면, i > 0 (시작하기 전에 빨간 티켓을 가질 수 없음)이고 p ( 0 , 0 ) = 1 인 경우 p ( i , 0 ) = 0입니다.미디엄나는p ( i , m )p ( i , 0 ) = 0i > 0p ( 0 , 0 ) = 1(처음에는 빨간 티켓이 없다고 확신합니다). 가장 최근의 추첨에서 티켓은 빨간색이거나 그렇지 않았습니다. 첫 번째 경우에, 우리는 이전에 정확히 i - 1 빨간 티켓 을 볼 수 있는 기회 를 가졌습니다 . 우리는 다음 나머지에서 빨간색 하나 끌어 후 무슨 일이 있었 363 - m + 1 정확히하고, 티켓을 내가 지금까지 티켓을 빨간색. 우리는 모든 티켓이 모든 단계에서 동일한 기회를 가지고 있다고 가정하기 때문에 이러한 방식으로 빨간색을 그릴 가능성은 ( 12 - i +p ( i - 1 , m - 1 )난 − 1363 − m + 1나는 . 다른 경우에, 우리는이전 m - 1 무승부에서정확히 i 빨간 티켓을 얻을 수있는 기회 p ( i , m - 1 ) 를가졌으며다음 무승부에서 샘플에 다른 빨간 티켓을 추가하지 않을가능성은 ( 363 − m + 1 − 12 + i ) / ( 363 − m + 1 )( 12 − i + 1 ) / ( 363 − m + 1 )p ( i , m - 1 )나는m - 1( 363 − m + 1 − 12 + i ) / ( 363 − m + 1 ). 기본 확률 원칙을 사용하면 (즉, 상호 배타적 인 두 경우의 기회가 추가되고 조건부 확률이 곱해집니다),
P ( I , m ) = P ( I - 1 , m - 1 ) ( 12 - I + 1 ) + P ( I , m - 1 ) ( 363 - M + 1 - 12 + 된 I )363 − m + 1.
0 ≤ i ≤ 12 및 0 ≤ m ≤ 232에 대해 값의 삼각형 배열을 배치하여이 계산을 반복적으로 반복합니다 . 약간의 계산 후 p ( 2 , 232 ) ≈ 0.000849884 및 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 )p ( i , m )0 ≤ i ≤ 120 ≤ m ≤ 232p ( 2 , 232 ) ≈ 0.000849884 , 두 버전의 질문에 모두 답변 이것들은 작은 숫자입니다. 어떻게 보든 지간에 그들은 아주 드문 사건입니다 (1,000에서 1보다 희귀).p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) ≈ 0.000934314
이중 점검으로, 이 연습을 컴퓨터에서 1,000,000 번 수행했습니다. 이들 실험의 932 = 0.000932에서, 2 개 이하의 적색 티켓이 관찰되었다. 예상 값 934.3 의 샘플링 변동 이 약 30 (위 또는 아래) 이기 때문에 이는 계산 결과와 매우 비슷합니다 . R에서 시뮬레이션을 수행하는 방법은 다음과 같습니다.
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
이번에는 실험이 임의적이기 때문에 결과가 약간 변경되었습니다. 9 백만 건의 실험 중 248 개 미만의 빨간 표가 관찰되었습니다. 그것은 여전히 이론적 결과와 일치합니다.)
결론은 232 티켓 중 2 개 이하가 빨간색 일 가능성이 거의 없다는 것입니다. 실제로 363 명 중 232 명의 표본이있는 경우,이 결과는 JAR (jar-in-a-jar) 모델이 표본 획득 방법에 대한 올바른 설명 이 아님을 나타 냅니다. 다른 설명으로 는 (a) 빨간색 티켓이 항아리에서 가져 오기가 더 어려워졌고 ( "바이어스"에 대한 "바이어스") (b) 샘플이 관찰 된 후 티켓이 채색 되었습니다 ( 사후 데이터 스누핑). 편견을 나타내지 않음 ).
설명 (b)의 예는 악명 높은 살인 재판을위한 배심원 풀입니다. 363 명이 포함되었다고 가정하십시오. 그 수영장에서 법원은 232 명을 인터뷰했습니다. 야심 찬 신문 기자 가 수영장에있는 모든 사람들 의 이력 을 세 심하게 검토 한 결과 363 명 중 12 명이 금붕어 팬더 였지만 그 중 2 명만이 면담을했다는 것을 알았습니다. 법원은 금붕어 애호가에 대해 편견을 가지고 있습니까? 아마 아닙니다.