이것은 추론에 대한 잦은 접근과 베이지안 접근의 차이점을 설명하는 훌륭한 예입니다.
나의 첫 번째, 단순한 잦은 반응 :
이미 스트라이크의 분포가 이항 적이라고 가정 한 경우 다른 1000 명의 플레이어에 대해 알 필요가 없습니다 (아마도 이항 가정을 확인하는 데 사용할 수 있음).
이항 가정이 명확하면 추정치는 매우 간단합니다. 3/10. 이 추정값의 분산은 일반적인 p (1-p) / n = 0.021입니다.
기본적으로 파업 분포에 흥미롭고 이항 적이 지 않다고 생각하지 않는 한 1000 명의 다른 플레이어는 관련이 없습니다 (예 : 사람들이 더 많은 게임을할수록 더 나아집니다).
좀 더 베이지안을 살펴 보는 방법 :
또는 다른 플레이어로부터 얻은 사전 지식을 적용하는데 관심이 있고 새로운 플레이어가 기본적으로 같은 인구의 새로운 샘플이라고 생각한다면,이를 베이지 안에서 생각해야합니다 용어 .
플레이어의 이전 분포를 추정하십시오. 이를 위해서는 파업 가능성을 추정 한 1000 명의 선수 (이미 관찰 된 1000 명의 선수)를 살펴 봐야합니다. 이 1000 점은 각각 21 개의 값 중 하나만 취할 수 있으며 (20 개 중 0 개에서 20 개까지) 전체 필드에 분포가 표시됩니다. 이 점수를 비율 (즉, 0과 1 사이)로 변환하면이 분포는 베타 분포를 사용하는 임의 변수의 확률 분포에 의해 합리적으로 잘 추정 될 수 있습니다.. 베타 배포판은 a와 b라고하는 두 가지 매개 변수로 완전히 특징 지워지지 만,이 매개 변수는 실제로 우리가 요구 한 배포판 (특정 플레이어의 파업 가능성)과 관련이 없기 때문에 더 높은 수준의 배포판입니다. 하이퍼 파라미터라고합니다. 질문의 요점과 실제로 관련이없는 여러 가지 방법 중 하나로 1000 개의 데이터 점에서 이러한 하이퍼 파라미터의 추정치를 개발할 수 있습니다.
플레이어에 대한 정보를 얻기 전에, 스트라이크 점수 (p라고 함)의 비율에 대한 최선의 추측은 방금 적합했던 베타 배포판에서 가장 가능성이 높은 p 일 것입니다.
그러나 우리는 일반 인구뿐만 아니라 우리 자신의 플레이어에 대한 데이터를 가지고 있습니다! 우리는 하나님을 신뢰하며, 다른 모든 사람들은 데이터를 가져와야 합니다. 우리는 플레이어가 게임을하고 파업을하는 것을 관찰 할 때마다, 그 비율의 추정치를 정확하게 예측할 수있는 새로운 정보를 갖게됩니다.
비율에 대한 확률 분포로서 베타 분포에 대한 깔끔한 점 중 하나는 데이터에서 새로운 정보를 수집하고 비율에 대한 새로운 개선 된 추정치를 생성 할 때 확률 이론은 새로운 개선 된 추정치도 베타임을 보여줄 수 있다는 것입니다 배포-더 집중된 버전. 이는 베타 분포가 이항 모델에 대한 추정을 시도 할 때 접합체 라고하기 때문 입니다.
즉, n 개의 성공적인 이벤트 중 z를 발견하면 (이 경우 파업이있는 게임); 이전 분포는 베타 (a, b) 였고; 사후 분포 (원래 1000 개의 데이터 포인트가 주어 졌을 때 p의 확률 분포의 추정치이며 10 개의 게임에 대한 새로운 관측치 임)는 베타 (a + z, b + nz) 또는 (우리의 경우) 베타 (a + 3, b + 7). 보다시피, 데이터가 많을수록 a와 b는 덜 중요합니다. 이것의 수학은 합리적으로 간단하고 많은 본문에서 흥미롭지는 않습니다 (어쨌든 저에게는).
R이있는 경우 아래 코드를 실행하여 예제를 볼 수 있습니다 (R이없는 경우 무료로 제공해야하며 무료이며 이러한 종류의 문제를 생각하는 데 도움이됩니다). 이것은 플레이어의 이전 배포판을 베타 (2,5)로 모델링 할 수 있다고 가정합니다. 이것은 나에 의해 만들어졌습니다. 실제로, 곡선이 좋아 보인다고 생각하기 때문에 2와 5를 구성하는 것보다 a와 b에 대한 수치를 더 잘 추정 할 수있는 방법이 있습니다.
이 양식화 된 예제를 실행하면 알 수 있듯이 베타 (2,5)의 사전 배포에서 플레이어의 스트라이크 득점 확률은 0.30이 아닌 0.29입니다. 또한 신뢰 구간보다 신뢰성 있고 설명하기 쉬운 신뢰 구간을 만들 수 있습니다 (CrossValidated를 포함하여 두 가지 차이점에 대한 인터넷의 많은 질문과 토론 참조).
plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"),
lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data
그런 다음 새 플레이어를 관찰하십시오. 새로운 플레이어에 대한 새로운 사후 분포를 계산합니다. 실제로 이것은 "우리가 방금 관찰 한 것을 받았는데, 플레이어 분포에서이 사람이 가장 가능성이 높다고 생각합니까?"라고 말합니다.