편집 :이 게시물을 만든 이후로 여기에 추가 게시물이 있습니다 .
아래 텍스트 요약 : 모델 작업 중이며 선형 회귀, Box Cox 변환 및 GAM을 시도했지만 많은 진전이 없었습니다.
을 사용하여 R
현재 메이저 리그 (MLB) 수준에서 마이너 리그 야구 선수의 성공을 예측하는 모델을 연구하고 있습니다. 종속적 변수, 공격적 경력이 대체보다 높음 (oWAR)은 MLB 수준에서의 성공을위한 대리자이며 선수가 자신의 경력 과정에서 참여하는 모든 경기에 대한 공격적 기여의 합으로 측정됩니다 (자세한 내용은 여기 -http : //www.fangraphs.com/library/misc/war/). 독립 변수는 나이를 포함하여 메이저 리그 레벨에서 성공을 예측하는 중요한 예측 변수로 간주되는 통계에 대한 z 점수 마이너 리그 공격 변수입니다 (어릴 때 더 많은 성공을 거둔 플레이어는 더 나은 전망이됩니다). ], 보행 속도 [BBrate] 및 조정 된 생산 (전 세계적으로 공격적인 생산 측정). 또한, 마이너 리그에는 여러 레벨이 있으므로, 마이너 리그 플레이 레벨 (더블 A, 하이 A, 로우 A, 루키 및 단기 시즌 트리플 A를 포함한 더미 변수 포함) (메이저 리그보다 높은 레벨) 참조 변수로]). 참고 : WAR의 크기를 0에서 1까지의 변수로 조정했습니다.
변수 산점도는 다음과 같습니다.
참고로 종속 변수 oWAR에는 다음 플롯이 있습니다.
선형 회귀로 시작 oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
하여 다음 진단 플롯을 얻었습니다.
잔차의 편견이없고 랜덤 변이가 없다는 명확한 문제가 있습니다. 또한 잔차가 정상이 아닙니다. 회귀 결과는 다음과 같습니다.
이전 스레드 의 조언에 따라 Box-Cox 변환을 성공하지 못했습니다. 다음으로 로그 링크로 GAM을 시도하고 다음 플롯을 받았습니다.
기발한
새로운 진단 플롯
스플라인이 데이터에 적합하는 것처럼 보이지만 진단 그림에는 여전히 적합하지 않습니다. 편집 : 원래 잔차 대 적합 값을보고 있다고 생각했지만 잘못되었습니다. 원래 표시된 플롯은 원본 (위)으로 표시되고 나중에 업로드 한 플롯은 새 진단 플롯 (위의)으로 표시됩니다.
모형 의 가 증가했습니다
그러나 명령 gam.check(myregression, k.rep = 1000)
에 의해 생성 된 결과 는 그렇게 유망하지 않습니다.
누구든지이 모델의 다음 단계를 제안 할 수 있습니까? 지금까지 진행 한 과정을 이해하는 데 도움이 될만한 다른 정보를 제공해 드리겠습니다. 도움을 주셔서 감사합니다.