m 명 목록에서 n 명이 y 명 목록에서 x 명을 무작위로 선택했을 확률은 얼마입니까?


10

교체하지 않고 363 명으로 구성된 수영장에서 232 명을 선택하는 경우 12 명 중 2 명이 해당 선택에 참여할 확률은 얼마입니까?

이것은 232 개의 지점에 363 명의 참가자가있는 울트라 레이스에 대한 무작위 추첨입니다. 선택이 특정 12 명 그룹에 대해 편향되어 있는지에 대한 논쟁이 있습니다.

이것을 계산하기위한 나의 초기 시도는 232 개의 선택 가능한 363 개의 선택이 있다는 것이었다. 12 명 목록에서 한 사람의 조합 수는 1 선택 12 + 2 선택 12 + ... + 11 선택 12 + 12 선택 12입니다. 따라서 1 선택 12 + 2 선택 12 .... / 232 선택 363 결과적으로 매우 낮은 숫자가되고, 이는 분명히 너무 낮습니다.

이것을 어떻게 계산합니까?


1
두 가지 기술적 요점. 먼저 결과가 알려진 확률보다는 가능성을 다루고 있습니다. 둘째, 결과가 주어진다는 이론적 가능성은 중요하지 않습니다. 선택에 사용 된 방법에 접근하는 것이 더 낫습니다. 선택은 어떻게 선택 되었습니까? 결과의 정확성이 아니라 방법의 정확성을 증명해야합니다.
Michelle

1
선택 확률을 추정 할 목적으로 이것을 Michelle의 가능성으로 보았을 것입니다. 그것은 사실이 아닌 것 같습니다.
whuber

불평하는 12 명의 사람들이 무작위로 선택되지 않기 때문에 초 지오메트리 RV의 간단한 계산을 사용할 때는주의해야합니다. 그들은 선택 되지 않았기 때문에 불평하고 있습니다.
Guy

답변:


10

나는 다음과 같은 질문을 해석합니다. 백서 장을 항아리에 넣고 마치 한 사람의 이름으로 라벨을 붙인 것처럼 항아리의 내용물을 완전히 저으면서 무작위로 232 개를 추출한 것처럼 샘플링을 수행했다고 가정합니다 . 사전에 12 장의 티켓이 빨간색으로 표시되었습니다. 선택한 티켓 중 정확히 두 개가 빨간색 일 가능성은 무엇입니까 ? 최대 2 개의 확률36323212 티켓이 빨간색 ?

정확한 공식을 얻을 수 있지만 이론적 인 작업을 많이 수행 할 필요는 없습니다. 대신, 우리는 단지 티켓이 항아리에서 뽑힐 때의 기회를 추적합니다. 시간에 그들의 철회되고, 정확히 그 기회하자 내가 빨간색 티켓을 기록 할 볼 한 ( I , m을 ) . 시작하려면, i > 0 (시작하기 전에 빨간 티켓을 가질 수 없음)이고 p ( 0 , 0 ) = 1 인 경우 p ( i , 0 ) = 0입니다.미디엄나는(나는,미디엄)(나는,0)=0나는>0(0,0)=1(처음에는 빨간 티켓이 없다고 확신합니다). 가장 최근의 추첨에서 티켓은 빨간색이거나 그렇지 않았습니다. 첫 번째 경우에, 우리는 이전에 정확히 i - 1 빨간 티켓 을 볼 수 있는 기회 를 가졌습니다 . 우리는 다음 나머지에서 빨간색 하나 끌어 후 무슨 일이 있었 363 - m + 1 정확히하고, 티켓을 내가 지금까지 티켓을 빨간색. 우리는 모든 티켓이 모든 단계에서 동일한 기회를 가지고 있다고 가정하기 때문에 이러한 방식으로 빨간색을 그릴 가능성은 ( 12 - i +(나는1,미디엄1)나는1363미디엄+1나는 . 다른 경우에, 우리는이전 m - 1 무승부에서정확히 i 빨간 티켓을 얻을 수있는 기회 p ( i , m - 1 ) 를가졌으며다음 무승부에서 샘플에 다른 빨간 티켓을 추가하지 않을가능성은 ( 363 m + 1 12 + i ) / ( 363 m + 1 )(12나는+1)/(363미디엄+1)(나는,미디엄1)나는미디엄1(363미디엄+112+나는)/(363미디엄+1). 기본 확률 원칙을 사용하면 (즉, 상호 배타적 인 두 경우의 기회가 추가되고 조건부 확률이 곱해집니다),

(나는,미디엄)=(나는1,미디엄1)(12나는+1)+(나는,미디엄1)(363미디엄+112+나는)363미디엄+1.

0 i 120 m 232에 대해 값의 삼각형 배열을 배치하여이 계산을 반복적으로 반복합니다 . 약간의 계산 후 p ( 2 , 232 ) 0.000849884p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 )(나는,미디엄)0나는120미디엄232(2,232)0.000849884 , 두 버전의 질문에 모두 답변 이것들은 작은 숫자입니다. 어떻게 보든 지간에 그들은 아주 드문 사건입니다 (1,000에서 1보다 희귀).(0,232)+(1,232)+(2,232)0.000934314

이중 점검으로, 이 연습을 컴퓨터에서 1,000,000 번 수행했습니다. 이들 실험의 932 = 0.000932에서, 2 개 이하의 적색 티켓이 관찰되었다. 예상 값 934.3 의 샘플링 변동 이 약 30 (위 또는 아래) 이기 때문에 이는 계산 결과와 매우 비슷합니다 . R에서 시뮬레이션을 수행하는 방법은 다음과 같습니다.

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

이번에는 실험이 임의적이기 때문에 결과가 약간 변경되었습니다. 9 백만 건의 실험 중 248 개 미만의 빨간 표가 관찰되었습니다. 그것은 여전히 ​​이론적 결과와 일치합니다.)

결론은 232 티켓 중 2 개 이하가 빨간색 일 가능성이 거의 없다는 것입니다. 실제로 363 명 중 232 명의 표본이있는 경우,이 결과는 JAR (jar-in-a-jar) 모델이 표본 획득 방법에 대한 올바른 설명 이 아님을 나타 냅니다. 다른 설명으로 는 (a) 빨간색 티켓이 항아리에서 가져 오기가 더 어려워졌고 ( "바이어스"에 대한 "바이어스") (b) 샘플이 관찰 된 티켓이 채색 되었습니다 ( 사후 데이터 스누핑). 편견을 나타내지 않음 ).

설명 (b)의 예는 악명 높은 살인 재판을위한 배심원 풀입니다. 363 명이 포함되었다고 가정하십시오. 그 수영장에서 법원은 232 명을 인터뷰했습니다. 야심 찬 신문 기자 가 수영장에있는 모든 사람들 의 이력 을 세 심하게 검토 한 결과 363 명 중 12 명이 금붕어 팬더 였지만 그 중 2 명만이 면담을했다는 것을 알았습니다. 법원은 금붕어 애호가에 대해 편견을 가지고 있습니까? 아마 아닙니다.


NB 시뮬레이션에서는 모든 샘플링이 교체없이 (를 통해 sample) 무작위로 수행되기 때문에 처음으로 표시된 12 개의 "티켓"이라는 것은 중요하지 않습니다 . 실제로, 각 반복 sample에서 티켓이 232를 철회하기 전에 호출 될 때마다 티켓을 철저히 혼합합니다.
whuber

2
선한-그것은 실제로 내가 기대했던 결과가 아니었다. 철저한 작업과 좋은 설명 감사합니다. (흥미롭게도 실제로 R이 처음 개발 된 오클랜드 대학교에서 통계 훈련을 받았습니다)
Sarge

10

@ whuber는 철저한 설명을 제공했습니다.이 시나리오에 해당하는 표준 통계 분포, 즉 초 기하 분포 가 있음을 지적하고 싶습니다 . 따라서 R에서 직접 이러한 확률을 얻을 수 있습니다.

선택한 12 개 중 정확히 2 개의 확률 :

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

선택한 12 개 중 2 개 이하의 확률 :

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1 감사합니다. 이 연결에 대해 언급 했어야합니다. 초기 하 분포는 전형적으로 샘플링-샘플링 실험에서 나타납니다. 12 명의 특정 사람들 (내 "빨간색 티켓")은 붙잡히고 표시되어 수영장으로 던져진 물고기와 같습니다. 232의 샘플은 나중에 잡히는 물고기 세트와 같습니다. 초기 하 분포는 다시 잡은 물고기의 빈도를 나타냅니다.
whuber

0

그룹이 무작위로 선택되지 않기 때문에 확률 분포는 단순한 초 지오메트리 분포로 계산 된 것보다 훨씬 높습니다 ( "12 마리의 물고기는 추첨 전에 빨간색으로 페인트됩니다" ).

질문에 대한 설명을 통해 추첨의 사기를 테스트하고 있습니다. 12 명으로 구성된 특정 그룹은이 중 2 명만 선출되었으며, 예상 인원은 232 / 363 ~ 2 / 3 = 8이라고 불평했습니다.

우리가 실제로 계산해야 할 것은 " 아니요 " 크기 (12)의 그룹 만이 회원이 선택이 없다"는. 적어도 하나의 그룹이 2 개 이하를 가질 확률 (따라서 추첨의 공정성에 대해 불평 할 가능성)은 훨씬 높습니다.

이 시뮬레이션을 실행하고 30 개 (= 360 / 12) 그룹 중 2 개 이하의 선택 항목 이없는 시행 횟수를 확인 하면 약 2.3 % 의 시간을 얻 습니다. 1:42 는 낮지 만 불가능하지는 않습니다.

특정 그룹의 사람들에 대해 편견이있을 수 있으므로 추첨 절차를 여전히 확인해야합니다. 그들은 함께 모여서 확률이 적은 (예를 들어 첫 번째 또는 마지막 숫자), 또는 추첨 절차에 의존하는 변수를 가진 추첨 범위를 받았을 것입니다. 그러나 절차에서 결함을 찾지 못하면 그룹에 대한 불운이라는 1:42 확률로 돌아갈 수 있습니다.


그러나 좋은 점은, 그러나 (a) 가능한 모든 12 개의 그룹이 물질과 충분히 유사성이있는 것은 아니며, (b) 물질과 충분히 유사한 그룹이 정확히 12 명의 구성원을 갖는 것은 아닙니다.
zbicyclist

@zbicyclist, 나는 계산이 정확하다고 주장하지 않습니다. 나는 (우리가 사기 탐지 법의 영역에서와 같이) 무승부가 유죄가 아니라는 합리적인 의심 을하고 싶었습니다 .
Guy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.