홈런 치기의 평균에 대한 회귀 측정

11

야구를 따르는 사람은 토론토의 호세 바티스타의 MVP 이외의 성능에 대해 들었을 것입니다. 4 년 전 그는 시즌 당 약 15 홈런을 기록했다. 작년에 그는 54 명을 기록했는데, 이는 야구 역사상 12 명에 불과한 수치입니다.

2010 년에는 240 만 명이 지급되었고 2011 년에는 팀에 1 천 5 백만 명이 요구되었습니다. 760 만 명을 제공하고 있습니다. 그가 2011 년에 그것을 반복 할 수 있다면, 그는 어느 쪽이든 쉽게 가치가있을 것입니다. 그러나 그의 반복 가능성은 무엇입니까? 우리는 그가 그 평균으로 회귀하기를 얼마나 어렵습니까? 우연히 그의 퍼포먼스를 얼마나 기대할 수 있었습니까? 그의 회귀에서 평균으로 조정 된 2010 년 합계는 무엇을 기대할 수 있습니까? 어떻게 해결합니까?

나는 Lahman Baseball Database를 가지고 놀았으며 지난 5 시즌 동안 시즌 당 적어도 50 타석을 기록한 모든 선수의 홈런 합계를 반환하는 쿼리를 짜 냈습니다.

표는 다음과 같습니다 (10 행의 Jose Bautista 알림)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

전체 결과 (232 행)는 여기에서 확인할 수 있습니다 .

어디서부터 시작해야할지 모르겠습니다. 누구든지 올바른 방향으로 나를 가리킬 수 있습니까? 관련 이론과 R 명령이 특히 유용합니다.

친절하게 감사합니다

나사 돌리개

참고 :이 예제는 약간 고안되었습니다. 홈런은 확실히 선수의 가치를 나타내는 최고의 지표는 아니며, 홈런 총계는 타자가 홈런을 치는 기회 (판 모양)를 가질 수있는 계절 당 다양한 기회를 고려하지 않습니다. 또한 일부 선수들이 더 유리한 경기장에서 경기하고 리그 평균 홈런이 매년 변화한다는 것을 반영하지도 않습니다. 기타 등 평균에 대한 회귀를 설명하는 배후 이론을 파악할 수 있다면 HR보다 더 적절한 방법으로 사용할 수 있습니다.

r regression modeling

— TMOD
소스

2

야구는 많은 미국 통계 학자들이 선호하는 예제 소스이므로 Google (/ 학자) 검색에서 Morrison and Schmittlein (1981) jstor.org/stable/2630890 과 같은 몇 가지 관련 기사가 검색됩니다 . 나는 당신의 질문에 대답하기 위해 야구와 R에 더 친숙한 사람에게 맡길 것입니다.

— onestop

1

또한 JC Bradbury와 그의 블로그 인 Sabernomics, sabernomics.com/sabernomics 의 작업을 확인하시기 바랍니다 . 선수 가치 측정에 관한 그의 책은 미래의 생산성을 예측하는 특성에 대한 통찰력이있을 것입니다.

— 앤디 W

2

언급 된 문제는 특이한 문제와 비슷하지만 특이점을 생각하는 일반적인 방식은 아닙니다. 놀라운 결과 (즉, 특이 치) 를 통합하려면 꼬리가 두꺼운 "샘플링 분포"가 필요합니다 (Jose의 결과는 과거 데이터에 대한 평균에서 3 표준 편차 이상 떨어져 있음). 예측에서 설명하십시오.

— chanceislogic

여기에 나오는 모든보다 정교한 주석과 더불어 조잡한 작은 지름길을 고려한다면, 작은 크기의 샘플에 대해 수행 할 수있는 Dixon 's Outliers가 있습니다. cee.vt.edu/ewr/environmental/teach/smprimer / outlier /…

— rolando2

3

나는 예측을 도울 수있는 베이지안 축소 또는 사전 수정이 분명히 있다고 생각하지만 다른 압정을 고려할 수도 있습니다 ...

지난 몇 년 동안뿐만 아니라 메이저에서 몇 번의 시즌을 겪은 시즌 (극적으로 2 배 증가)을 기록한 플레이어를 찾아 내고 다음 해에 어떻게했는지 살펴보십시오. 성능을 유지할 확률은 올바른 예측 변수가있을 수 있습니다.

이 문제를 살펴 보는 방법에는 여러 가지가 있지만 mpiktas가 말했듯이 더 많은 데이터가 필요합니다. 최근 데이터 만 처리하려면 전반적인 리그 통계, 그가 상대하는 투수를 살펴 봐야합니다. 복잡한 문제입니다.

그리고 Bautista 자신의 데이터를 고려하고 있습니다. 그렇습니다. 올해는 최고의 해 였지만 2007 년 이래 350 개 이상의 AB (569)를 보유한 것은 이번이 처음이었습니다. 성능 향상 비율을 변환하는 것을 고려할 수 있습니다.

— 남자
소스

3

당신은 할 수 있습니다 이 데이터 모델을 단독 맞게 혼합 (다단계) 모델을 사용하여 평균에 회귀를 차지 예측을 얻을. 이러한 모형의 예측은 평균에 대한 회귀를 설명합니다. 야구에 대해 전혀 알지 못하더라도 결과를 찾지 못합니다. 당신이 말했듯이 모델은 판 모양과 같은 다른 요소를 고려해야합니다.

홈런의 수가 카운트이기 때문에 포아송 혼합 효과 모델이 선형 혼합 모델보다 더 적합하다고 생각합니다. 제공 한 데이터를 보면 히스토그램 hr쇼가 긍정적으로 왜곡되어 선형 혼합 모델이 제대로 작동하지 않으며 로그 변환 시간이 있거나 없거나 상당히 많은 제로가 포함되어 있음 을 보여줍니다.

다음 lmer은 lme4 패키지 의 함수를 사용하는 코드 입니다. 각 플레이어를 식별하는 ID 변수를 만들고 그의 답변에 표시된 mpiktas와 같이 데이터를 'long'형식으로 재구성했습니다 (R의 데이터 관리에 능숙하지 않기 때문에 Stata에서 수행했지만 스프레드 시트 패키지) :

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

이것은 로그 링크가있는 모델에 적합하며 연도에 지수 적중률을 제공하며 플레이어마다 다를 수 있습니다. ID 링크가 음의 값으로 인해 오류를 발생 시켰지만 다른 링크 기능이 가능합니다. sqrt 링크는 정상적으로 작동했으며 로그 링크가있는 모델보다 BIC 및 AIC가 낮으므로 더 적합 할 수 있습니다. 2011 년의 히트 율 예측은 선택한 링크 기능, 특히 최근에 히트 율이 많이 변한 Bautista와 같은 플레이어의 경우 민감한 기능입니다.

나는 실제로 그런 예측을 실제로 얻지 못해서 두려워 lme4합니다. Stata에 더 익숙합니다 .xtmelogit 은 log 이외의 링크 함수를 선택할 수는 없지만 Bautista의 경우 50을 예측 했지만 결과에 대한 결 측값 이 있는 관측치에 대한 예측을 쉽게 얻을 수 있습니다. 내가 말했듯이, 나는 그렇게 믿을만한 것을 찾지 못한다. 위의 lmer모델 에서 2011 년 예측을 생성하는 방법을 보여줄 수있는 사람에게 감사드립니다 .

자기 회귀 모형 플레이어 수준의 오류 같은 AR (1)가 너무 재미있을 수 있지만 나는 포아송 혼합 모델과 같은 구조를 결합하는 방법을 모르겠어요.

— 한 정거장
소스

패키지 형태 변경에서 함수 용융을 사용하여 긴 형식으로 변환하는 것은 R, melt (data, id = 1 : 2)의 한 줄입니다.

— mpiktas

이에 대한 흥미로운 확장 / 대안은 샘플링 된 비율 매개 변수 (연간 1 개의 비율) 가있는 Possion 샘플링 분포가있는 계층 적 모델에 적합 하지만 비율 매개 변수에 대한 Cauchy 샘플링 분포 (정상 또는 일반 혼합 대신)입니다. Cauchy 분포는 (큰 비율 매개 변수를 샘플링 하여) 극단적 인 이벤트가 발생할 수 있도록합니다 . 중간 사례 (정상과 Cauchy 간)는 t- 분포입니다. (Cauchy는 역 CDF 방법을 사용할 수 있으므로 샘플링하기가 더 쉽습니다).

— chanceislogic

2

홈런에 대한 데이터가있는 시간 범위에서 선수와 선수의 특성에 대한 추가 데이터가 필요합니다. 첫 번째 단계에서는 플레이어의 나이 또는 경험과 같은 시변 특성을 추가하십시오. 그런 다음 HLM 또는 패널 데이터 모델을 사용할 수 있습니다. 다음과 같은 형식으로 데이터를 준비해야합니다.

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

가장 간단한 모델은 다음과 같습니다 ( lme 함수 는 패키지 nlme입니다 )

lme(HR~Experience,random=~Experience|Year,data=your_data)

이 모델은 각 선수의 홈런 수는 약간의 변동성을 허용하는 경험에만 의존한다는 가정에 크게 의존합니다. 아마 정확하지는 않지만, 당신은 적어도 호세 바티스타의 숫자가 평균 플레이어와 비교할 수 없을 것 같은 느낌을받을 것입니다. 이 모델은 다른 플레이어의 특성을 추가하여 더 향상시킬 수 있습니다.

— mpiktas
소스

@TMOD에 더 많은 데이터가 필요 하다고 말하지 않고 @TMOD 에 더 많은 데이터 가 있으면 예측이 더 정확할 것 입니다. 질문에 예측을 생성하기에 충분한 정보가 있습니다.

— chanceislogic

@probabilityislogic, 그렇습니다. 예측을 생성하기에 충분한 정보가 있지만 모델은 인터셉트 만 할 것입니다.

— mpiktas

반드시, 하나는이 데이터에 AR (1) 또는 AR (2) 모델에 맞게 수

— probabilityislogic

@probabilityislogic, 아 네, 맞습니다.

— mpiktas

2

당신은 책 블로그 를 확인하고 싶을 수도 있습니다 .

Tom Tango와 "The Book : Percentages in Baseball"의 다른 저자는 아마도 거기에 가장 좋은 수치 측정 소스 일 것입니다. 특히, 그들은 평균에 대한 회귀를 좋아합니다. 그들은 가장 기본적으로 수용 가능한 시스템 (Marcel)으로 설계된 예측 시스템을 고안했으며 평균에 대한 회귀에 거의 독점적으로 의존합니다.

내 머리 꼭대기에서, 나는 그러한 예측을 사용하여 진정한 재능을 추정 한 다음 그 평균 재능 주위에 적절한 분포를 찾는 것이 하나의 방법이라고 생각합니다. 일단 당신이 그것을 가지고, 각 판 모양은 Bernoulli 시험과 같을 것이므로, 이항 분포는 당신에게 나머지 길을 취할 수 있습니다.

— 마이클 맥고완
소스

1

참고로 2011 년부터 2014 년까지 43, 27, 28, 35를 기록했습니다.

그것은 그의 162 게임 평균 32 (물론 그러한 값을 포함) 32에 가깝고 2010 년 54에서 약 1 SD에 가깝습니다.

평균에 대한 회귀처럼 보입니다. 우연히 그룹 평균에서 벗어난 시끄러운 주제 (이 경우 1)를 활용하여 만들어진 극단적 그룹.

http://www.baseball-reference.com/players/b/bautijo02.shtml

— 팀
소스