기준 모집단을 고려하여 성공 확률 추정


11

다음과 같은 상황이 있다고 가정하십시오.

시간이 지남에 따라 각각 1000 명 정도의 볼링 선수가 관찰되었습니다. 각 플레이어가 한 게임 수에 대한 각 플레이어의 스트라이크 비율을 기록했습니다.

새로운 볼링 선수가 와서 10 경기를 치고 3 타점을받습니다.

어떤 플레이어의 타격 횟수에 대한 분포는 이항으로 가정합니다.

그 선수의 "진정한"성공 확률을 추정하고 싶습니다.

다음 사항에 유의하십시오.

  1. 이것은 실제 상황이나 학교 문제가 아니라 스스로 생각하는 문제입니다.
  2. 저는 Stats 101 코스보다 통계 교육이 적은 학생입니다. 최대 가능성 추정치와 같은 추론에 대해 조금 알고 있습니다. 따라서 통계 영역에서 읽어야 할 부분을 자유롭게 알려주십시오.
  3. 내 문제에 정보가 부족하거나 성공 확률 분포가 거의 정상에 이롭다면 도움이 될 것입니다.

대단히 감사합니다


이 선수의 확률과 다른 1000 명의 선수 각각의 확률 사이의 관계는 무엇이라고 생각하십니까? 다시 말해, 왜이 선수의 확률을 추정 할 때 다른 1000을 고려할까요?
rolando2

1
플레이어의 실제 스트라이크 백분율은 본질적으로 1000 명의 다른 플레이어와 동일한 스트라이크 백분율 분포를 실현 한 것으로 가정합니다. 다시 말해, 그 새로운 선수에게는 특별한 것이 없으며, 그는 또 다른 무작위 선수 일뿐입니다. 잘만되면 그것은 의미가 있습니다.
Uwat

답변:


10

이것은 추론에 대한 잦은 접근과 베이지안 접근의 차이점을 설명하는 훌륭한 예입니다.

나의 첫 번째, 단순한 잦은 반응 : 이미 스트라이크의 분포가 이항 적이라고 가정 한 경우 다른 1000 명의 플레이어에 대해 알 필요가 없습니다 (아마도 이항 가정을 확인하는 데 사용할 수 있음).

이항 가정이 명확하면 추정치는 매우 간단합니다. 3/10. 이 추정값의 분산은 일반적인 p (1-p) / n = 0.021입니다.

기본적으로 파업 분포에 흥미롭고 이항 적이 지 않다고 생각하지 않는 한 1000 명의 다른 플레이어는 관련이 없습니다 (예 : 사람들이 더 많은 게임을할수록 더 나아집니다).

좀 더 베이지안을 살펴 보는 방법 : 또는 다른 플레이어로부터 얻은 사전 지식을 적용하는데 관심이 있고 새로운 플레이어가 기본적으로 같은 인구의 새로운 샘플이라고 생각한다면,이를 베이지 안에서 생각해야합니다 용어 .

플레이어의 이전 분포를 추정하십시오. 이를 위해서는 파업 가능성을 추정 한 1000 명의 선수 (이미 관찰 된 1000 명의 선수)를 살펴 봐야합니다. 이 1000 점은 각각 21 개의 값 중 하나만 취할 수 있으며 (20 개 중 0 개에서 20 개까지) 전체 필드에 분포가 표시됩니다. 이 점수를 비율 (즉, 0과 1 사이)로 변환하면이 분포는 베타 분포를 사용하는 임의 변수의 확률 분포에 의해 합리적으로 잘 추정 될 수 있습니다.. 베타 배포판은 a와 b라고하는 두 가지 매개 변수로 완전히 특징 지워지지 만,이 매개 변수는 실제로 우리가 요구 한 배포판 (특정 플레이어의 파업 가능성)과 관련이 없기 때문에 더 높은 수준의 배포판입니다. 하이퍼 파라미터라고합니다. 질문의 요점과 실제로 관련이없는 여러 가지 방법 중 하나로 1000 개의 데이터 점에서 이러한 하이퍼 파라미터의 추정치를 개발할 수 있습니다.

플레이어에 대한 정보를 얻기 전에, 스트라이크 점수 (p라고 함)의 비율에 대한 최선의 추측은 방금 적합했던 베타 배포판에서 가장 가능성이 높은 p 일 것입니다.

그러나 우리는 일반 인구뿐만 아니라 우리 자신의 플레이어에 대한 데이터를 가지고 있습니다! 우리는 하나님을 신뢰하며, 다른 모든 사람들은 데이터를 가져와야 합니다. 우리는 플레이어가 게임을하고 파업을하는 것을 관찰 할 때마다, 그 비율의 추정치를 정확하게 예측할 수있는 새로운 정보를 갖게됩니다.

비율에 대한 확률 분포로서 베타 분포에 대한 깔끔한 점 중 하나는 데이터에서 새로운 정보를 수집하고 비율에 대한 새로운 개선 된 추정치를 생성 할 때 확률 이론은 새로운 개선 된 추정치도 베타임을 보여줄 수 있다는 것입니다 배포-더 집중된 버전. 이는 베타 분포가 이항 모델에 대한 추정을 시도 할 때 접합체 라고하기 때문 입니다.

즉, n 개의 성공적인 이벤트 중 z를 발견하면 (이 경우 파업이있는 게임); 이전 분포는 베타 (a, b) 였고; 사후 분포 (원래 1000 개의 데이터 포인트가 주어 졌을 때 p의 확률 분포의 추정치이며 10 개의 게임에 대한 새로운 관측치 임)는 베타 (a + z, b + nz) 또는 (우리의 경우) 베타 (a + 3, b + 7). 보다시피, 데이터가 많을수록 a와 b는 덜 중요합니다. 이것의 수학은 합리적으로 간단하고 많은 본문에서 흥미롭지는 않습니다 (어쨌든 저에게는).

R이있는 경우 아래 코드를 실행하여 예제를 볼 수 있습니다 (R이없는 경우 무료로 제공해야하며 무료이며 이러한 종류의 문제를 생각하는 데 도움이됩니다). 이것은 플레이어의 이전 배포판을 베타 (2,5)로 모델링 할 수 있다고 가정합니다. 이것은 나에 의해 만들어졌습니다. 실제로, 곡선이 좋아 보인다고 생각하기 때문에 2와 5를 구성하는 것보다 a와 b에 대한 수치를 더 잘 추정 할 수있는 방법이 있습니다.

이 양식화 된 예제를 실행하면 알 수 있듯이 베타 (2,5)의 사전 배포에서 플레이어의 스트라이크 득점 확률은 0.30이 아닌 0.29입니다. 또한 신뢰 구간보다 신뢰성 있고 설명하기 쉬운 신뢰 구간을 만들 수 있습니다 (CrossValidated를 포함하여 두 가지 차이점에 대한 인터넷의 많은 질문과 토론 참조).

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

그런 다음 새 플레이어를 관찰하십시오. 새로운 플레이어에 대한 새로운 사후 분포를 계산합니다. 실제로 이것은 "우리가 방금 관찰 한 것을 받았는데, 플레이어 분포에서이 사람이 가장 가능성이 높다고 생각합니까?"라고 말합니다.


2
나는 이것이 옳지 않다고 생각합니다. 1000 명의 사람들 중 대다수 (99 %)가 5 %에서 15 % 사이의 파업 비율을 가지고 있고 소수의 사람들이 25 %보다 높은 파업 비율을 가지고 있다고 가정하십시오. 그런 다음 우리가 관찰 한 새로운 플레이어의 실제 타격 비율이 30 %보다 낮을 지 모르지만 단순히 "운이 좋았다"고 주장합니다.
Uwat

좋아, 좋은 지적-나는이 상황을 고려하여 편집을 추가했습니다. 기본적으로 베이지안 추론 문제에 대한 좋은 진술이 있습니다.
피터 엘리스

@ 피터-모두 멋지게 논쟁했다.
rolando2

답변 주셔서 감사합니다. 그러나 나는 당신이 의미하는 바를 잘 이해하지 못했습니다. 감사합니다
Uwat

감사합니다. 정말 좋은 질문입니다. 답변으로 답변을 크게 확대했습니다.
피터 엘리스
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.