통계 및 빅 데이터 modeling

2

백 테스트를 수행하려는 성능의 예측 모델이 있습니다 (예 : 데이터 세트를 가져 와서 이전 시점으로 "되감기"하고 모델의 예상 성능을 확인하십시오). 문제는 내 모델 중 일부가 대화식 프로세스를 통해 빌드되었다는 것입니다. 예를 들어 Frank Harrell의 Regression Modeling Strategies 의 조언에 따라 한 모델에서 제한된 입방 스플라인을 사용하여 피처와 응답 간의 비선형 …

9 cross-validation modeling outliers splines overfitting

5

빅 데이터에 대한 로지스틱 회귀

약 5000 개의 기능으로 구성된 데이터 세트가 있습니다. 해당 데이터에 대해 먼저 피처 선택에 Chi Square 테스트를 사용했습니다. 그 후 응답 변수와의 유의미한 관계를 나타내는 약 1500 개의 변수를 얻었습니다. 이제 로지스틱 회귀 분석을 적용해야합니다. R에 glmulti 패키지를 사용하고 있습니다 (glmulti 패키지는 vlm에 효율적인 하위 세트 선택을 제공합니다). 한 번에 …

9 r logistic generalized-linear-model modeling regression-strategies

4

축구 점수 모델링

Dixon, Coles ( 1997 )에서, 그들은 (4.3)에서 수정 된 두 개의 독립 포아송 모델에 대한 최대 우도 추정을 사용하여 축구의 점수를 모델링했다. 패키지를 사용하지 않고 알파 및 베타와 홈 효과 매개 변수 (274 페이지, 표 4)를 "재생"하기 위해 R을 사용하려고합니다 (일반적인 독립 포아송 모델을 사용하는 것도 좋습니다). bivpois패키지를 사용해 보았지만 …

9 r modeling maximum-likelihood games

3

상수 분산 가정을 위반할 때 어떤 모델을 사용할 수 있습니까?

상수 분산 가정을 위반하면 ARIMA 모형을 적합 할 수 없으므로 일 변량 시계열에 적합하도록 어떤 모형을 사용할 수 있습니까?

9 time-series modeling forecasting arima

2

종속 데이터에 대한 Bernoulli 랜덤 변수의 합을 모델링하는 방법은 무엇입니까?

나는 거의 같은 질문을 가지고 있습니다 : Bernoulli 랜덤 변수의 합을 효율적으로 모델링 할 수 있습니까? 그러나 설정은 매우 다릅니다. S=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i} , , ~ 20, ~ 0.1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i Bernoulli 랜덤 변수의 결과에 대한 데이터가 있습니다 : ,Xi,jXi,jX_{i,j}Sj=∑i=1,NXi,jSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} 최대 우도 추정값을 사용 하여 를 추정하고 얻는 다면 가 훨씬 큽니다. 다른 기준에 …

9 distributions modeling binomial random-variable non-independent

1

데이터를 다시 섞어 야합니까?

우리는 획득하기에 꽤 비싼 생물학적 샘플을 가지고 있습니다. 이러한 샘플을 일련의 테스트를 통해 예측 모델을 작성하는 데 사용되는 데이터를 생성했습니다. 이를 위해 샘플을 훈련 (70 %) 및 테스트 (30 %) 세트로 나누었습니다. 우리는 성공적으로 모델을 만들고 테스트 세트에 적용하여 성능이 "최적"이 아님을 발견했습니다. 실험가들은 이제 더 나은 모델을 만들기 위해 …

9 classification modeling experiment-design cross-validation bootstrap

2

데이터에 대한 ROC 곡선 계산

그래서, 나는 16 개의 시험을 가지고 있는데, 여기에서 Hamming Distance를 사용하여 생체 특성으로부터 사람을 인증하려고합니다. 임계 값이 3.5로 설정되었습니다. 내 데이터는 다음과 같으며 1 번 시험 만 참 긍정입니다. Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

10

구조 방정식 / MPLUS 모델을 어떻게 그리나요?

구조적 방정식 / 혼합 모델을 효과적이고 예쁘게 그릴 수있는 소프트웨어 도구 (바람직하게는 오픈 소스)를 찾고 있습니다. xfig와은 GraphVIZ에보고 한 후 지금은 일반 벡터 그래픽 패키지에 충실 잉크 스케이프 는 가장 유연한 것 때문에. stat.stackexchange 커뮤니티를 설문 조사하고 싶습니다 : 구조 방정식 / 혼합 모델을 어떻게 그리십니까? 어떤 소프트웨어를 사용하십니까?

9 data-visualization modeling sem software

2

두 분포를 결합한 모형에서 적합도 측정

모델링하려는 이중 피크가있는 데이터가 있으며, 피크를 독립적으로 처리 할 수없는 피크간에 충분한 겹침이 있습니다. 데이터의 히스토그램은 다음과 같습니다. 이를 위해 두 가지 모델을 만들었습니다. 하나는 두 개의 포아송 분포를 사용하고 다른 하나는 두 개의 음 이항 분포를 사용합니다 (과대 산포를 설명하기 위해). 어떤 모델이 데이터에 더 잘 맞는지를 알 수있는 …

9 modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio

3

선형 회귀 분석을위한 최상의 예측 변수 하위 집합 계산

적합한 예측 변수를 사용하여 다변량 선형 회귀 분석에서 예측 변수를 선택 하기 위해 모든 2 ^ p 부분 집합 을 명시 적으로 테스트하지 않고 예측 변수의 '최적'부분 집합을 찾는 데 사용할 수있는 방법은 무엇 입니까? 'Applied Survival Analysis'에서 Hosmer & Lemeshow는 Kuk의 방법을 참조하지만 원본 논문을 찾을 수 없습니다. 누구 …

9 modeling regression multivariable model-selection feature-selection

4

모델 피팅 / 트레이닝 및 검증에 사용되는 샘플 데이터의 계산 비율

데이터 예측에 사용할 샘플 크기 "N"을 제공했습니다. 데이터를 세분화하여 일부를 사용하여 모델을 설정하고 나머지 데이터를 사용하여 모델을 확인하는 방법에는 어떤 것이 있습니까? 나는 이것에 대한 흑인과 백인의 대답이 없다는 것을 알고 있지만, 어떤 "엄지 규칙"이나 일반적으로 사용되는 비율을 아는 것이 흥미로울 것입니다. 나는 교수 중 한 명이 대학에서 60 %에 …

9 machine-learning modeling sample validation

«modeling» 태그된 질문