배트맨을 꺼내는 크리켓 볼러 모델링


9

많은 크리켓 게임 (수천)을 자세히 설명하는 데이터 세트가 있습니다. 크리켓에서 "볼러"는 "타자"의 연속으로 공을 반복적으로 던집니다. 중산은 배트맨을 "아웃"시키려고합니다. 이런 점에서 그것은 야구에서 투수와 타자와 매우 유사합니다.

전체 데이터 세트를 가져 와서 배트맨을 얻은 볼의 총 수를 볼링 된 총 볼 수로 나눈 경우 볼링 선수가 배트맨을 꺼내는 평균 확률이 있음을 알 수 있습니다. 약 0.03 ( 잘만되면 나는 이미 잘못되지 않았다?)

내가 관심이있는 것은 특정 타자가 다음 볼의 특정 볼러에 의해 튀어 나올 확률을 계산하고 계산하기 위해 할 수있는 것입니다.

데이터 세트는 주어진 볼러가 수천 명의 볼을 다양한 타자에게 볼링 할만큼 충분히 큽니다. 그래서 나는 그가 볼링을 한 볼의 수로 달성 한 볼러의 수를 단순히 다음 볼에서 나올 특정 볼러의 새로운 확률을 계산하기 위해 나눌 수 있다고 생각합니다.

내 문제는 데이터 세트가 주어진 볼러가 주어진 배트맨에서 통계적으로 상당한 수의 볼을 볼링 할만 큼 충분히 크지 않다는 것입니다. 따라서 특정 배트맨을 향한 특정 볼링 선수의 아웃 확률을 계산하는 데 관심이 있다면 동일한 단순한 방식으로 수행 할 수 없다고 생각합니다.

내 질문은 다음 접근법이 유효한지 여부입니다.

  • 전체 데이터 세트에서 공이 밖으로 나올 확률은 0.03입니다.

  • 평균 볼러 A가 0.06에서 벗어날 가능성이 있다고 계산하면 (즉 평균 볼러의 두 배)

  • 평균 타자 B는 0.01 (평균 타자보다 3 분의 1)에서 나올 확률이있었습니다.

  • 그렇다면 특정 볼러가 다음 볼에 특정 타자가 나올 확률이 0.06 * (0.01 / 0.03) = 0.02가 될 것이라고 말하는 것이 타당합니까?


볼러가 반복적으로 공을 던지 도록 선택 하면 게임에서 볼을 다시 볼 수 없게됩니다.
Glen_b -Reinstate 모니카

답변:


2

전체 데이터 세트를 가져 와서 배트맨을 얻은 볼의 총 수를 볼링 된 총 볼 수로 나눈 경우 볼링 선수가 배트맨을 꺼내는 평균 확률이 있음을 알 수 있습니다-약 0.03 나는 이미 잘못하지 않았다?)

불행히도, 이것은 이미 정확히 당신이 찾고있는 것이 아닙니다.

한 명의 중산과 두 명의 타자, 돈 브래드 먼 과 저가 있다고 가정 해 봅시다 . (크리켓에 대해서는 거의 알지 못하므로 여기서 벗어나는 방법을 알려주세요.) 게임은 다음과 같이 진행됩니다.

  • 돈이 방망이에 들어가 99 번 사발에 나옵니다.
  • 나는 박쥐에 가서 즉시 나간다.
  • 돈이 방망이에 들어가 99 번 사발에 나옵니다.
  • 나는 박쥐에 가서 즉시 나간다.

이 경우, 200 개의 볼 중 4 개의 아웃이 있으므로, 볼러가 타자를 뽑을 확률은 4/200 = 2 %로 추정됩니다. 그러나 실제로 돈이 나올 확률은 1 %와 비슷하지만 내 것은 100 %입니다. 따라서 배트맨과 볼러를 무작위로 선택한다면,이 중산 인이 이번 배트맨을 이번에 나올 확률은 (50 % 확률로 돈을 골랐습니다) * (1 % 확률) + (50 % 확률로 뽑았습니다) 나) * (100 % 확률) = 50.05 %. 그러나 임의로 피치 를 선택하면 2 %의 확률로 나옵니다. 따라서 어떤 샘플링 모델을 생각하고 있는지 신중하게 고려해야합니다.


어쨌든, 당신의 제안은 미친 것이 아닙니다. 더 상징적으로 중산이되고 미디엄타자; 허락하다f(b,m) 가능성이있다 얻는다 미디엄밖. 그렇다면 당신은 말하고 있습니다 :

에프(,미디엄)=이자형미디엄'[에프(,미디엄')]이자형'[에프(',미디엄)]이자형',미디엄'[에프(',미디엄')].

여기에는 다음과 같은 원하는 속성이 있습니다.

이자형,미디엄[에프(,미디엄)]=이자형,미디엄'[에프(,미디엄')]이자형',미디엄[에프(',미디엄)]이자형',미디엄'[에프(',미디엄')]=이자형,미디엄[에프(,미디엄)];
당신이 단지 수단을 인수한다면 그것은 비슷하게 일관됩니다 또는 미디엄.

이 경우 우리는 할당 할 수 있습니다

: =이자형,미디엄[에프(,미디엄)](): =이자형미디엄[에프(,미디엄)]/h(미디엄): =이자형[에프(,미디엄)]/그래서 에프(,미디엄)=()h(미디엄).
당신의 가정은 관찰 할 수 있다는 것입니다 ()h(미디엄)데이터에서 합리적으로 잘. (a) 충분한 게임이 있고 (b) 플레이어가 모두 비슷한 주파수로 서로 게임을하는 한 괜찮습니다.

좀 더 정교하게 설명하자면 : 많은 전문 게임의 데이터와 친구와 함께하는 많은 게임이 있다고 상상해보십시오. 겹치지 않으면 내 친구들에 비해 정말 좋아 보일 수도 있으므로 최악의 프로 선수보다 훨씬 나을 것이라고 생각할 수도 있습니다. 이것은 분명히 거짓이지만, 반박 할 데이터가 없습니다. 그래도 프로 선수와 한 번 경기를하고 파괴 된 부분이 약간 겹치면 데이터가 나와 내 친구를 프로보다 나쁘게 순위를 매기는 것을 지원하지만 방법은 설명하지 않습니다. 기술적으로, 여기서 문제는 예를 들어 좋은 샘플이 있다고 가정한다는 것입니다.이자형'[에프(',미디엄)]하지만 ' 분포가 편향되어 있습니다.

물론 데이터는 나쁘지 않지만 리그 구조 또는 기타 사항에 따라 해당 문제의 일부 요소가있을 수 있습니다.


다른 접근 방식으로 문제를 해결할 수 있습니다. 제안 된 모델에프실제로 Netflix 문제 에서와 같이 협업 필터링 에서 일반적으로 사용되는 저급 매트릭스 인수 분해 모델의 인스턴스입니다 . 거기, 당신은 기능을 선택()h(미디엄) 치수가 아르 자형, 대표 에프(,미디엄)=()h(미디엄). 당신은 해석 할 수 있습니다아르 자형>1단일 "품질"점수에서 여러 차원에 걸쳐 점수를 얻는 것까지 모델을 복잡하게 만들 수 있습니다. 특정 볼러는 특정 유형의 타자에 비해 더 나을 수 있습니다. (이것은 예 들어 NBA 게임 에서 수행되었습니다 .)

그것들을 행렬 분해라고 부르는 이유는 행렬을 만들면 에프 볼러만큼 많은 행과 타자만큼 많은 열로, 이것을 다음과 같이 쓸 수 있습니다.

[에프(1,미디엄1)에프(1,미디엄2)에프(1,미디엄미디엄)에프(2,미디엄1)에프(2,미디엄2)에프(2,미디엄미디엄)에프(,미디엄1)에프(,미디엄2)에프(,미디엄미디엄)]에프=[(1)()][h(미디엄1)h(미디엄미디엄)]H
당신이 고려한 곳 ×미디엄 매트릭스 에프×아르 자형 하나 그리고 미디엄×아르 자형 하나 H.

물론, 당신은 관찰 할 수 없습니다 에프직접. 일반적인 모델은 시끄러운 항목을 관찰하는 것입니다.에프무작위; 귀하의 경우, 각 항목에 대해 임의의 횟수의 시행 으로 이항 분포 에서 추첨을 관찰 할 수 있습니다.에프.

다음과 같이 확률 모델을 구성 할 수 있습니다.

나는케이(0,σ2)H제이케이(0,σH2)에프나는제이=나는H제이아르 자형나는제이나는영형미디엄나는(나는제이,에프나는제이)
어디 나는제이아르 자형나는제이 관찰되고, 아마도 당신은 아마도 일부 σ/σH그리고 예를 들어 Stan 에서 유추하십시오 .

이것은 완벽한 모델이 아닙니다. 점수와 상관 관계가 있으며 (첫 번째 섹션에서 언급했듯이) 더 중요하게는 에프나는제이 ~에있다 [0,1](아마도 물류 시그 모이 드 또는 이와 유사한 것을 사용하여 달성 할 수 있습니다). 보다 복잡한 우선 순위를 가진 관련 기사H(그러나 이항 가능성을 사용하지는 않음) : Salakhutdinov와 Mnih, Markov chain Monte Carlo , ICML 2008을 사용한 베이지안 확률 행렬 인수 분해 . ( doi / author 's pdf )


1
@Ravi 이것은 길고, 아마도 명확하게 설명되지 않았으며, 이런 종류의 문제에 대한 당신의 배경 수준을 모르겠습니다. 그러나 불분명 한 부분에 대해서는 언제든지 문의하십시오. 또한 데이터는 일대일이므로 say Elo 사용을 고려할 수도 있습니다 .
Dougal

이 고품질 답변을 작성하는 데 시간을 내 주셔서 감사합니다. 분명히 나는 ​​지금 기본 통계 만 알고 있으므로이 중 많은 것이 나에게 새로운 것입니다. 그러나 그것은 내가 정확히 원하는 것 인이 문제를 올바르게 이해하기 위해 읽을 내용을 매우 명확하게 보여줍니다. 바라건대 며칠 (또는 몇 년) 공부 후 나는 당신의 대답을 더 잘 이해할 수있을 것입니다.
라비

감사합니다. 엘로에 관한 질문이있었습니다. 다소 길어지면서 나는 새로운 질문을 여기에서 열었다 : [ stats.stackexchange.com/questions/230518/… )
Ravi

0

A와 B가 다른 플레이어 와의 평균을 기준으로 필드에서 만난 적이 없다면 A가 볼링 선수라는 점을 감안할 때 B가 나올 정확한 확률을 유추 할 수 없습니다 .


3
귀뚜라미에 대해서는 옳을 수도 있지만, 체스와 같은 다른 기술 게임에서 등급 시스템을 사용하여 경쟁 한 적이없는 사람들 간의 경기 결과를 예측할 수있는 능력은 다른 제안을합니다.
whuber

2
@ whuber Agreed-거의 모든 다른 경쟁 상호 작용과 마찬가지로 크리켓도 마찬가지라고 생각합니다. 귀뚜라미는 그렇게 다르지 않습니다 .
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.