짧은 버전은 베타 분포 가 확률 분포를 나타내는 것으로 이해 될 수 있다는 것입니다. 즉, 확률이 무엇인지 모를 때 가능한 모든 확률 값을 나타냅니다. 여기에 내가 가장 좋아하는 직관적 인 설명이 있습니다.
야구를 따르는 사람은 타율에 친숙 합니다. 플레이어가 기본 타격을하는 횟수 를 타석에 올린 횟수로 나눈 것입니다 (따라서 0
와 사이의 비율 1
). .266
일반적으로 평균 타율 .300
로 간주되는 반면 우수한 타율 로 간주됩니다.
야구 선수가 있다고 가정하고 시즌 전반의 타격 평균이 얼마인지 예측하려고합니다. 당신은 우리가 지금까지 그의 타율을 사용할 수 있다고 말할 수 있습니다. 그러나 이것은 시즌이 시작될 때 매우 좋지 않습니다! 만약 한 선수가 한 번의 타자로 올라가고 싱글을 얻는다면, 그의 타율은 짧고 1.000
, 파업하면 그의 타율은 0.000
입니다. 당신이 행운의 승리를 얻을 수 times- 박쥐 대여섯까지 가서 평균 얻을 수 있다면 그것은 훨씬 더하지 않는 1.000
, 또는 불운 행진을하고 평균을 얻는 0
방법을 원격으로 좋은 예측 인자이다 어느 것도, 당신은 그 계절에 타를 것입니다.
처음 몇 번의 타격에서 타율이 최종 타율을 예측하는 데 왜 좋지 않습니까? 플레이어의 첫 타수가 파업 인 경우, 왜 아무도 시즌 내내 타격을받지 않을 것이라고 예상하지 않습니까? 우리는 사전에 기대하기 때문에 . 우리는 역사상 한 시즌 동안의 대부분의 타율이와 .215
와 같은 사이를 맴돌았다는 사실을 알고 .360
있습니다. 플레이어가 시작시 연속으로 몇 번의 경고를 받으면 평균보다 약간 더 나빠질 수 있지만 그 범위에서 벗어나지 않을 것입니다.
이항 분포 (일련의 성공 및 실패) 로 표현 될 수있는 타격 평균 문제를 고려할 때 이러한 사전 예상치를 나타내는 가장 좋은 방법 (통계에서 사전에 부르는 것 )은 베타 분포를 사용하는 것입니다. 플레이어가 첫 스윙을하는 것을보기 전에, 우리는 대략 그의 타격 평균을 기대합니다. 베타 분포의 영역은 (0, 1)
확률과 마찬가지로, 우리가 이미 올바른 방향으로 가고 있다는 것을 알고 있지만이 작업에 대한 베타의 적합성은 그 이상입니다.
우리는 선수의 시즌 평균 타율이 거의 주위 .27
에 있을 것으로 예상 하지만, .21
~에 이르기까지 합리적 일 수 .35
있습니다. 이는 매개 변수가 및 베타 분포로 표시 될 수 있습니다 .α=81β=219
curve(dbeta(x, 81, 219))
나는 두 가지 이유로 이러한 매개 변수를 생각해 냈습니다.
- 평균은αα+β=8181+219=.270
- 그림에서 볼 수 있듯이이 분포는 거의 전적으로
(.2, .35)
타율에 대한 합리적인 범위 내에 있습니다 .
베타 분포 밀도 플롯에서 x 축이 무엇을 나타내는 지 물었습니다. 여기에서 그의 타격 평균을 나타냅니다. 따라서이 경우 y 축은 확률 일뿐만 아니라 x 축도 마찬가지입니다 (공격 평균은 타격의 확률 일뿐입니다). 베타 분포는 확률의 확률 분포 를 나타냅니다 .
그러나 베타 배포판이 적합한 이유는 다음과 같습니다. 플레이어가 한 번의 타격을받는다고 상상해보십시오. 시즌에 대한 그의 기록은 지금 1 hit; 1 at bat
이다. 그런 다음 확률 을 업데이트 해야합니다 . 새로운 정보를 반영하기 위해이 전체 곡선을 조금만 이동하려고합니다. 이것을 증명하는 수학은 약간 복잡하지만 ( 여기에 표시됨) 결과는 매우 간단 합니다. 새로운 베타 배포판은 다음과 같습니다.
Beta(α0+hits,β0+misses)
여기서 및 은 우리가 시작한 매개 변수, 즉 81과 219입니다. 따라서이 경우 는 1 씩 증가하고 (한 번의 히트), 는 전혀 증가하지 않았습니다 (아직 누락되지 않음) ). 이는 새 배포가 또는α0β0αβBeta(81+1,219)
curve(dbeta(x, 82, 219))
거의 변경되지 않았 음을 알 수 있습니다. 그 변경은 실제로 육안으로 볼 수 없습니다! 한 번의 타격이 실제로 아무 의미가 없기 때문입니다.
그러나 시즌 중에 플레이어가 더 많은 타격을가할수록 새로운 증거를 수용하기 위해 곡선이 더 많이 이동하고, 더 많은 증거가 있다는 사실에 따라 더 좁아집니다. 시즌 중반까지 그가 300 번 타율을 기록했고 그중 100 번을 쳤다고합시다. 새 배포는 또는Beta(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
플레이어의 타격 평균이 무엇인지 더 잘 이해할 수있게 되었기 때문에 커브가 더 얇고 오른쪽 (높은 타격 평균)으로 이동했습니다.
이 공식의 가장 흥미로운 결과 중 하나는 결과 베타 분포의 예상 값이며 기본적으로 새로운 추정치입니다. 베타 분포의 예상 값은 입니다. 따라서 300 번의 실제 타율에 100 회 성공한 후 새로운 베타 분포의 예상 값은 순진한 추정치보다 낮습니다. of 이지만 시즌을 시작한 예상치보다 (αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270). 이 공식은 선수의 명중과 명중 횟수에 "헤드 스타트"를 추가하는 것과 같다는 것을 알 수 있습니다. "시즌에는 81 명중과 219 명중으로 기록을 시작하십시오." ).
따라서, 베타 분포는 확률 분포를 나타내는 가장 적합한 확률 - 우리는 확률이 사전에 무엇인지 모르는 경우가 있지만, 우리는 몇 가지 합리적인 추측이있다.