다중 충돌로 역 생일 문제


9

길이가 알 수없는 외계인 연도를 가졌다 고 가정합니다. 만약 외계인의 무작위 표본이 있고 그 중 일부가 생일을 공유하는 경우이 데이터를 사용하여 연도의 길이를 추정 할 수 있습니까?

예를 들어, 샘플 100에서 두 개의 트리플렛 (즉, 각각 세 명의 외계인이 공유하는 두 개의 생일)과 다섯 쌍 및 84 개의 싱글 톤을 가질 수 있습니다. N을 추정 할 때 절대 최소값은 91이고 최대 값은 제한이 없지만 어떻게 합리적인 기대 값을 찾을 수 있습니까?

가정에는 "모든 생일이 똑같이 가능합니다"와 같은 것들이 포함됩니다.

여기에 답변 된 다른 질문과 달리 방에 알려진 충돌이 있습니다. 충분히 긴 기간이면 외계인 방에 충돌이 없을 가능성이 높습니다. 그러나 매우 긴 기간은 충돌 가능성이 낮고 짧은 기간은 거의 충돌 가능성이 낮으므로 가장 가능성이 높은 연도 길이에 대해 (이론적) 범위를 제공합니다.


3
이 질문의 특별한 버전에 대한 나의 대답은 쉽게 다항식 분포를 사용하여 일반화됩니다 : stats.stackexchange.com/questions/252813 참조 .
whuber

@Techhead 다양한 방법으로! 언급 할 모수 추정에 대한 확실한 접근 방식은 최대 가능성입니다.
Glen_b-복지 모니카


1
@ whuber 나는 그 질문과 당신의 의견을 보았지만 충돌이 알려진 샘플에 대부분의 질문을 적용하는 방법을 보지 못했습니다. 확장 된 양식을 찾기는 어렵지 않지만 대수 합계를 찾는 방법을 모르겠습니다.
Techhead

1
귀하의 버전이 복제본으로 닫히지 않도록 충분히 복잡하다는 데 동의합니다.
whuber

답변:


2

분포의 기대 값은 로 계산됩니다 . 이 문제의 경우 충돌 기준이 주어진 경우 의 분포를 계산 하거나 충돌 기준이 주어진 경우 찾습니다 . 여기서E(X)=pixiNE(N)=n=0pnnpn=P(N=n).

위에서 언급 한 충돌 기준이 있고 연도 길이가 경우 충돌 기준이 충족 될 확률을 이라고 가정합니다그러면 충돌 기준을 충족시킬 수있는 방법의 수를 생일을 일반적으로 배열 할 수있는 수로 나눔으로써 을 찾을 수 있습니다. 일단 각 가능한 찾았을 , 다음 누락 유일한 부분은 병진이다 에qnn.qnqnnqnpn.

우리는 가정하면 그 IS 비례에 , 다음이후 , 및따라서이 문제를 해결하려면 에 대한 공식 만 있으면 됩니다.pnqnpn=αqn.n=0pn=1αn=0qn=1α=1n=0qn.qn

예를 들어, 우선 이 주어지면 충돌 기준이 발생할 수있는 방법의 수를 찾아 보겠습니다첫 번째 외국인 싱글은 하루에 착륙 할 수 있으므로이있다 가능성은. 다음 싱글 톤은 언제라도 첫 외계인의 생일이 될 수 있으므로 가능성이 있습니다. 처음 84 개의 싱글 톤에 대해 이것을 완성하면, 우리는 이것이 일어날 수있는 가지 방법 을 얻게 됩니다. 우리는 또한 5 쌍과 3 개의 트리플렛을 가지고 있으므로 각 그룹의 "첫번째"외계인도 싱글 톤 쌍에 착륙해서는 안됩니다. 이로 인해 외계인이 충돌하지 않는 합니다 (서투른 구문은 나중에 쉽게 일반화 할 수 있습니다).N=n.nn1n(n1)(n2)...(n83)n(n1)(n2)...(n8452+1)

다음으로, 주어진 쌍 또는 삼중 항에 대한 두 번째 외계인은 91 가지 선택을하고, 다음 외계인은 90 등을 가지고 있습니다. 첫 91 외계인의 생일을 감안할 때 이것이 일어날 수있는 총 방법의 수는 . 삼중 항의 나머지 구성원은 쌍의 생일에 떨어져야하며 그 발생 확률은 입니다. 충돌 기준이 다음과 같이 충족 될 수있는 총 가능한 방법을 얻기 위해이 모든 것에 대한 확률을 곱합니다.91(911)(912)...(917+1)76

rn=n(n1)...(n8452+1)(84+5+2)(84+5+21)...(84+1)(5+2)(5+1)

이 시점에서 패턴이 명확 단일 톤, 쌍 및 삼중 항이 있으면 84를 5를 2를 로 대체 하여 일반화 공식을 얻습니다. 생일이 일반적으로 배열되는 가능한 방법의 수는 , 여기서 m은 문제의 총 외계인 수라고 생각합니다. 따라서 충돌 기준을 충족시킬 확률은 충돌 기준을 충족하는 방법의 수를 외계인이 태어날 수있는 방법의 수로 나눈 값 또는 입니다.abca,b,cnmqn=rnnm

또 다른 흥미로운 것은 공식에 나타났습니다 . 하자 , 및하자 되도록 의 나머지 부분 합니다. 참고 우리가 간단히 기록 할 수 있도록, N의 독립적 상수로! 이후 및 , 우리가 할 수있는 실제 인자 분모 합 중. 이 시점에서 분자에서 . 을 단순화 할 수 있습니다rnyn=n(n1)...(n(a+b+c)+1)=n!(n(a+b+c))!znrnrn=ynznznzn=zpn=qn/i=0qiqn=zynnmzpn=ynnm/i=0(yiim)yn또한 (또는 외계인 그룹의 고유 생일 수로 생각할 수 있음)를 허용하면 다음과 같이 얻을 수 있습니다.s=a+b+c

pn=n!(ns)!nm/i=0(i!(is)!im)

이제 에 대한 (공평한) 간단한 공식과 대한 (공평한) 간단한 공식이 있습니다 . 여기서 은 비례 한다고 가정 했습니다 (충돌을 충족시킬 확률) 주어진 기준은 ). 나는 이것이 공정한 가정이라고 생각하며, 나보다 똑똑한 사람은이 가정이 다항 분포에 따라 과 관련이 있음을 증명할 수도 있습니다 . 이 시점에서 우리는 숫자 방법을 사용하여 을 계산하거나 이 이 가까워 질 때 이 0에 가까워 근사치를 가정 할 수 있습니다.pnE(N)P(N=n)qnN=nP(N=n)E(N)pnn


확률 질량 함수가 아닌 가능성 함수를 기반으로 기대 값을 계산하도록 제안하는 것 같습니다. 의도적인가요?
Sextus Empiricus

2

코디에서 탁월 답에 대한 우도 함수를 표현하는 좋은 방법을 제공하는 상기 연도의 일수 (또는 평면 이전에 기초하여 사후 분포)로부터 독립적 인 확률의 일부 밖에 인수 분해에 의해 .NN

이 답변에서 나는 그것을 더 간결하게 작성하고 계산하기 훨씬 더 어려운 예상 값 대신이 가능성 함수의 최대 값을 계산하는 방법을 제공하고 싶습니다.


N에 대한 우도 함수

가 단일 생일 수, 중복 생일 수 및 3 중 생일 수 와 같은 제한 으로 생일 세트 에서 생일 시퀀스를 그리는 방법 의 수a+2b+3cnabc

rn=(na+b+c)number of ways topick m unique birthdaysout of n days(a+b+c)!a!b!c!number of ways todistribute m birthdaysamong groups of size ab and c(a+2b+3c)!1!a2!b3!cnumber of ordered ways toarrange specific single, duplicate, and triplicatesamong the aliens =n!(nabc)!×(a+2b+3c)a!b!c!1!a2!b3!c

오른쪽의 첫 번째 항만 종속 되므로 다른 항을 제외하여 우도 함수n

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

우리는 코디 및 사용의 표기법에 따라 어디 외계인의 수를 의미하고, 독특한 생일의 수를.ms


N에 대한 최대 우도 추정

이 우도 함수를 사용하여 의 최대 우도 추정치를 도출 할 수 있습니다 .N

참고

L(n)=L(n1)(n1n)mnns

최대는 전에 다만 발생합니다 에 대한n

(n1n)mnns=1

또는

s=n(1(11/n)m)

대략 큰 ( 을 하여 점 에서 Taylor 시리즈를 로 쓰는 로랑 시리즈 사용 )nx=1/nxx=0

sk=0l(mk)(n)k+O(n(l+1))

첫 번째 항 하면 다음과 같은 이점이 있습니다.smm(m1)2n

n1(m2)ms

뿐만 아니라 2 차 용어 사용 당신이 얻을를 :smm(m1)2n+m(m1)(m2)6n2

n2(m2)+(m2)24(ms)(m3)2(ms)

따라서 외계인이 독특한 생일이있는 경우 근사값 및 합니다. 방정식을 수치로 가되고 MLE을 얻기 위해 으로 내림합니다 .m=100s=91n1550n2515.1215n=516.82n=516

근사치와 실제 MLE 비교

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.