같은 학급에서 같은 이름을 가진 다섯 자녀의 확률

베이비 명명 포럼에서 예비 부모는 항상 제니퍼에 대한 두려움의 일부 버전을 반복합니다. "자녀는 자신의 이름을 가진 수업에서 5 명 중 하나가되기를 원하지 않습니다." 그것은 더 이상 그런 종류의 인기에 더 이상 이름이 오지 않으며, 심지어 제니퍼 열풍이 일어 났을 때에도 수업 중에 5 명을 얻지 못했습니다. 나는 이러한 부모의 이름 반복의 우연의 일치가 거의 없을 것이라는 답변을 원합니다.

사회 보장국의 광범위한 아기 이름 데이터 ( https://www.ssa.gov/oact/babynames/limits.html )를 사용하여 누군가 미국의 초등학교 수업에서 5 명을 가질 가능성을 알아내는 방법을 알려줄 수 있습니까? 같은 이름의 아이들? (단순함을 위해 "동일한 이름"은 동일한 철자를 의미하고 "학교 수업"은 모든 아이들이 같은 해에 태어났다는 것을 의미합니다.) 나는 수업 규모를 지정하지는 않지만 4보다 커야합니다. :-)

probability combinatorics

— JPmiaou
소스

아기 이름에 관한 게시물은 Andrew Gelman의 블로그에서 되풀이되는 주제입니다. 그의 사이트에서 찾은 게시물 중 어느 것도 귀하의 특정 질문에 대해 이야기하지 않습니다. 그는 "아기 블로그"에 링크하여 더 많은 답변을 얻을 수 있습니다. andrewgelman.com/2005/09/07/baby_name_blog

— Mike Hunter

난 당신이 문자열 뭔가 함께 말의 성공, 최초의 상단과 같은 인구 조사 데이터에서 추출 스무 이름의 확률로 다항 분포를 사용 할 수 있습니다 생각 이 .

— Antoni Parellada

SSA 는 이름으로 태어난 어린이 수 에 대한 데이터를 제공합니까 ? 유용한 정보를 버리는 순위 에 대한 정보 만 찾고 있습니다.

— Sycorax는

@AntoniParellada 저는 상황의 현실이 훨씬 더 미묘하다고 생각합니다. 미국 학교 시스템은 소득과 인종에 의해 크게 분리되어 있기 때문에, 국가 통계는 실제 강의실과는 잘 맞지 않을 것입니다.

— Sycorax는 Reinstate Monica

내가 작은 학교에 다닐 때, 우리는 아주 작은 수업에 세 명의 Johns를 가지고있었습니다. 1 년 동안 우리는 위의 해와 결합하여 하나의 실물 크기의 수업을 만들었습니다. 이제 요한은 매우 일반적인 모든 다음 만이 아니었다 그 일반적인. (원래 문제의 관점에서, 3은 5만큼이나 성가시다). a의 기회 특정 이름은 많은 시간이 매우 낮은 것이 중복되고 있지만, 기회가 몇 가지 이름은 여러 번이 훨씬 더 높을 것이다 나타납니다.

— Glen_b-복지국 모니카

답변:

모든 데이터는 여기 에서 찾을 수 있습니다 . 표의 각 값은 해당 위치 및 출생 연도에서 25 명 샘플을 받았을 때 그 중 5 명이 이름을 공유 할 확률을 나타냅니다.

방법 : 각 이름에 Binomial PDF 를 사용하여 주어진 25 인 클래스에서 5 명의 사람들이 이름을 공유 할 확률을 찾았습니다.

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

피_{엔} (5 + 케이 나는 디 에스 에스 h ㅏ 아르 자형 이자형 엔 ㅏ 미디엄 이자형) = \sum_{\forall 엔 ㅏ 미디엄 이자형 에스} \sum_{케이 = 5}^{엔} (\binom{엔}{케이}) 피_{나는}^{케이} (1 - 피_{나는})^{엔 - 케이}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

예를 들어 총 자녀 수가 4,000,000 명이고 Emily가 21,393 명인 경우 25 명의 학생이있는 특정 수업에 5 명의 Emily가있을 확률은 Binomial (25, 5, 0.0053) = 0.0000002입니다. 포함 / 제외 원칙 에 따라 이름을 공유하는 5 명으로 구성된 여러 그룹이있을 가능성도 고려해야하기 때문에 모든 이름을 합산하면 정확한 답을 얻을 수 없습니다 . 그러나 이러한 확률은 거의 모든 실제적인 목적을 위해 거의 제로이기 때문에 무시할 수 있다고 가정하여 입니다. $P(\bigcup A_i) \approx \sum P(A_i)$

업데이트 : 많은 사람들이 지적했듯이 시간이 지남에 따라 국가마다 상당한 차이가 있습니다. 그래서 나는 같은 프로그램을 STATE BY STATE 기반으로 그리고 시간이 지남에 따라 실행했습니다. 결과는 다음과 같습니다 (전국 확률은 빨간색, 개별 상태는 검은 색).

흥미롭게도, 버몬트 (내 고향)는 지난 수십 년간 이런 일이 일어날 가능성이 가장 높은 곳 중 하나였습니다.

— 데이비드 C
소스

이 숫자를 어떻게 얻었는지 설명 할 수 있습니까? 당신은 그것을 멍청하게 할 필요가 없습니다-나는 수학 학사 학위를 가지고 있고, 어디서 물건을 찾아야하는지 알고 있습니다. 그러나 실제로 확률로 이어지는 일종의 추론을 알고 싶습니다. 끔찍한 한숨).

— JPmiaou

이것은 이름이 같은 확률 로 무작위 로 주어진다고 가정하며 , 단순히 사실 이 아닙니다 . 또한 실제 경험에 따르면 같은 이름을 가진 아이들과 200 명 중 1 명이 같은 수업 이 훨씬 더 많습니다 !

— Tim

결과가 약간 다르지만 결과가 비슷합니다. 그러나 결과의 지리적 및 시간적 변동 이 크므로 논의 할 가치가 없습니다 . 그 대답은 1910 년 이래로 두 자릿수 씩 변했으며, 주마다 차이가납니다. 미국 전체에서 초등학교 수업이 거의 나오지 않기 때문에, 국가 이름 목록에서 무작위 선택 모델은 부적절합니다.

— whuber

(1) 다운로드 한 국가 파일에서 다른 연도를보십시오. (2) 동일한 사이트에서 사용 가능한 상태 파일을보십시오.

— whuber

그렇습니다. 시간이 지남에 따른 확률의 그래프는 극적입니다. 1980 년까지 가파른 감소를 시작했습니다. 그러나 국가 변화는 이름이 지리적으로 다양하고 인종, 소득 및 기타 인구 통계 학적 요인에 의해 강력하게 군집되어 있기 때문에 실제로 매우 큽니다. (BTW 주 및 시간 변동에 대한 연장 된 조사의 경우 +1)

— whuber

다음 Python2 용 Python 스크립트를 참조하십시오.

답은 David C의 답변에서 영감을 얻었습니다.

마지막 대답은 https://www.ssa.gov/oact/babynames/limits.html "National Data 의 데이터에 따르면 야곱이 가장 가능성이 높은 이름 인 한 학급에서 5 명 이상의 야곱을 찾을 확률입니다. "에서 2006 년.

확률은 성공 확률이 Jacob-Probability 인 이항 분포에 따라 계산됩니다.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

최대 이름이 야곱 인 경우 25 명 중 동일한 이름을 가진 5 명 이상의 어린이의 확률 : 4.7e-07

최대 물론 야곱이라는 이름은 50 명 중 1.6 명에서 같은 이름을 가진 5 명 이상의 어린이가있을 확률입니다.

최대 이름이 야곱 인 경우 100 명 중 동일한 이름을 가진 5 명 이상의 어린이의 확률 : 0.00045입니다.

David C와 동일한 결과 10 배 감사. (내 답변은 모든 이름을 합한 것은 아니며 논의해야 할 수도 있습니다)

— 페인 만
소스

이 답변은 교실에서 일부 이름이 5 번 이상 나타날 가능성에 대한 질문을 다루지 않는 것 같습니다 .

— whuber

@feinmann 나는 한 클래스에서 같은 이름을 가진 두 명 이상의 5 명 세트를 가질 확률이 거의 0이고 모든 실제적인 목적으로 무시할 수 있기 때문에 모든 이름을 합산하는 것이 적절하다고 생각합니다. 즉, Inclusion / Exclusion Principle 에 따르면 ,이 가능성을 무시하면

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

— David C

아니요, 방금 질문 한대로 질문에 답변하지 않았습니다. 있는 가능성이 일부 이름은 다섯 번 이상 나타납니다이있는 최대 기회보다 훨씬 큰 주어진 이름은 다섯 번 이상 나타납니다.

— whuber

@whuber가 지적했듯이 "5 Jacobs"는 "일부 이름의 5"보다 약한 주장이지만 어쨌든 아기 이름 토론에 유용 할 수 있습니다. 가장 인기있는 이름을 사용하므로 확률은 훨씬 낮습니다. "

— JPmiaou

그것은 아니다 정확히 가능성은 상호 배타적이지 않기 때문에, : 당신이 5 이상 Thomases 가질 수 및 5 개 이상의 리차드 ( 그리고 하나의 클래스에 어쩌면 5 개 이상 헨리의 참조). 그래서 그것은 상한입니다. @DavidC는 여기에 그러한 사건이 무시할만한 확률이 있다고 의견을 주장합니다.

— Scortchi-Monica Monica 복원