생일 질문에 대한 실제 답변은 무엇입니까?


13

"동일한 생일을 가진 두 사람을 찾을 확률을 50 % 이상으로하려면 수업이 얼마나 커야합니까?"

페이스 북에 360 명의 친구가 있는데, 예상대로 생일 분포가 일정하지 않습니다. 나는 같은 생일을 가진 9 명의 친구가있는 어느 날이 있습니다. (큰 공휴일과 발렌타인 데이가 큰 것은 9 개월이 지난 것 같습니다.) 따라서, 며칠이 생일에 더 가능성이 높기 때문에 23의 수가 상한이라고 가정합니다.

이 문제에 대한 더 나은 추정이 있었습니까?


3
360 명으로 구성된 샘플은 연중 365 일 동안 생일 분포에 대해 큰 샘플을 만들지 않습니다. 이러한 작은 샘플에 대해 균일 성을 확인할 수는 없습니다.
시안

사람이 생일을 가지고 있는데, 두 번째 사람 같은 생일을 공유 하지 않을 확률은 얼마입니까? 364/365, 세 번째 사람 생일을 공유 하지 않을 확률은 무엇 입니까? (364/365) * (363/365). 확률이 나올 때까지 이것을 확장하십시오 < 50%. 그것은 같은 생일을 가진 사람없을 확률을 의미하며 , 결국 생일을 공유 할 적어도 두 사람의 확률은임을 의미합니다 > 50%.
zzzzBov

8
우리는 당신이 임의의 친구 가 있다고 가정 합니까?
James

1
@zzzzBov-OP가 요구하는 것을 이해하지 못합니다. 이것은 우리가 기회로 각 각의 생일 똑같이 가능성이 가정 접근 방식이다 인 당신의. OP는 1 월 1 일에 태어 났을 때 2 월 15 일에 태어날 가능성이 높지 않을 것으로 추정합니다.1365
확률론

답변:


18

운 좋게 누군가가 관련 질문 에 대한 약간의 토론 과 함께 실제 생일 데이터 를 게시했습니다 (분포 균일). 이것과 리샘플링을 사용하여 질문에 대한 답변이 이론적 답변 과 23과 똑같다는 것을 알 수 있습니다.

> x <- read.table("bdata.txt", header=T)
> birthday <- data.frame(date=as.factor(x$date), count=x$count)
> summary(birthday) 
      date         count     
 101    :  1   Min.   : 325  
 102    :  1   1st Qu.:1266  
 103    :  1   Median :1310  
 104    :  1   Mean   :1314  
 105    :  1   3rd Qu.:1362  
 106    :  1   Max.   :1559  
 (Other):360                 
> results <- rep(0,50)
> reps <-2000 # big number needed as there is some instability otherwise
> for (i in 1:50)
+ {
+ count <- 0
+ for (j in 1:reps)
+ {
+ samp <- sample(birthday$date, i, replace=T, prob=birthday$count)
+ count <- count + 1*(max(table(samp))>1)
+ }
+ results[i] <- count/reps
+ }
> results
 [1] 0.0000 0.0045 0.0095 0.0220 0.0210 0.0395 0.0570 0.0835 0.0890 0.1165
[11] 0.1480 0.1770 0.1955 0.2265 0.2490 0.2735 0.3105 0.3350 0.3910 0.4165
[21] 0.4690 0.4560 0.5210 0.5310 0.5745 0.5975 0.6240 0.6430 0.6950 0.7015
[31] 0.7285 0.7510 0.7690 0.8025 0.8225 0.8280 0.8525 0.8645 0.8685 0.8830
[41] 0.8965 0.9020 0.9240 0.9435 0.9350 0.9465 0.9545 0.9655 0.9600 0.9665

8
실제로, 하나를 통해 표시 할 수 슈어 볼록 위한 것으로, 어떤 생일의 불균일 분포, 일치 확률이 균일 한 경우와 같은 중대한 이상이다. 이것은 Cauchy-Schwarz 마스터 클래스 : J. Michael Steele의 연습 13.7 입니다 . 수학 불평등의 예술 소개 , Cambridge University Press, 2004, pg. 206 .
추기경

2
@ 시안 : 참으로. 이제, 높은 독자층의 통계 잡지에 대한 리뷰를 예약 한 사람을 알고 있다면 통계 학자에게 더 높은 가시성을 제공하기 위해 검토 할 것을 제안합니다.
추기경

3
(나의 바로 앞의 의견에 대해 궁금해하는 사람들을 위해 @ Xi'an이 Chance에 대해 새로 지정된 서평 검토 자라는 사실을 언급합니다 .)
추기경

2
@ Xi'an, 이것을 확인하고 당신의 생각을보십시오 : table(replicate(10^5, max(tabulate(sample(1:365,360,rep=TRUE))))).
whuber

3
R cognoscenti를 제외하고 @ Xi'an이 작성한 이전 주석의 코드와 OP가 상황을 시뮬레이션한다는 것은 분명하지 않습니다. 이를 실행하면 균일하게 분포 된 인구에서 무작위로 선택된 360 명 중 9 명 이상이 생일을 공유 할 확률 이 100,000 명 중 40 명에 불과합니다. 최대 공유 생일 수는 5입니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.