통계 및 빅 데이터 model-selection

1

자기 상관 잔차 패턴은 적절한 상관 구조를 가진 모델에서도 유지되고 최상의 모델을 선택하는 방법은 무엇입니까?

문맥 이 질문은 R을 사용하지만 일반적인 통계 문제에 관한 것입니다. 필자는 유충 개체군이 8 년 동안 1 년에 한 번 12 개 사이트에서 샘플링 된 시간에 따른 나방 개체군 성장률에 대한 사망률 (질병 및 기생충으로 인한 사망률)의 영향을 분석하고 있습니다. 인구 증가율 데이터는 시간이 지남에 따라 명확하지만 불규칙적 인 주기적 …

17 model-selection autocorrelation residuals panel-data spatio-temporal

2

회귀 분석을위한 예측 변수를 선택하기 위해 상관 행렬을 사용하고 있습니까?

며칠 전, 내 심리학자 연구원은 선형 회귀 모델에 변수를 선택하는 그의 방법에 대해 이야기했습니다. 좋지는 않지만 다른 사람에게 확인을 요청해야합니다. 방법은 다음과 같습니다 모든 변수 (종속 변수 Y 포함) 사이의 상관 행렬을보고 Y와 가장 관련이있는 예측 변수 X를 선택하십시오. 그는 어떤 기준도 언급하지 않았다. Q : 그가 옳았습니까? [이 예측 …

17 regression correlation model-selection

3

불균형 데이터 셋의 ROC vs 정밀 리콜 곡선

방금 이 토론을 읽었습니다 . 그들은 PR AUC가 불균형 데이터 세트에서 ROC AUC보다 낫다고 주장합니다. 예를 들어 테스트 데이터 세트에 10 개의 샘플이 있습니다. 9 개의 샘플은 양수이고 1은 음수입니다. 모든 것을 긍정적으로 예측하는 끔찍한 모델이 있습니다. 따라서 TP = 9, FP = 1, TN = 0, FN = 0이라는 …

17 machine-learning model-selection roc unbalanced-classes precision-recall

1

Akaike 정보 기준이 기계 학습에 더 많이 사용되지 않는 이유는 무엇입니까?

방금 "Akaike information criterion"에 부딪 쳤고 모델 선택에 관한 많은 양의 문헌을 보았습니다 (BIC와 같은 것들도 존재 함). 현대 기계 학습 방법이 이러한 BIC 및 AIC 모델 선택 기준을 활용하지 않는 이유는 무엇입니까?

16 machine-learning model-selection aic bic

1

Kaggle의 개인 리더 보드는 우승 모델의 샘플 외부 성능을 예측하는 좋은 방법입니까?

개인 테스트 세트의 결과를 사용하여 모델을 더 세분화 할 수는 없지만 개인 테스트 세트 결과를 기반으로 수행되는 수많은 모델 중에서 모델을 선택하지 않습니까? 그 과정만으로도 개인 테스트 세트에 과도하게 적합하지 않습니까? "의사 수학 및 금융 자선주의 : 백 테스트 과적 합이 표본 외 성능에 미치는 영향" 에 따르면 Bailey et.al. …

16 model-selection overfitting out-of-sample

1

ARIMA 주문 정의 문제

이것은 긴 게시물이므로 나와 함께 견딜 수 있기를 바랍니다. 잘못된 부분을 수정하십시오. 저의 목표는 3 주 또는 4주의 과거 데이터를 기반으로 일일 예측을 작성하는 것입니다. 데이터는 변압기 라인 중 하나의 로컬 부하에 대한 15 분 데이터입니다. 계절 ARIMA 프로세스의 모델 순서를 찾는 데 문제가 있습니다. 전력 수요 시계열을 고려하십시오. 원래 …

16 forecasting arima model-selection seasonality fourier-transform

7

"가장 적합"및 교차 검증이라는 용어에 사용 된 "최고"의 정의는 무엇입니까?

비선형 함수를 점 집합에 맞추는 경우 (각 가로 좌표마다 세로 좌표가 하나만 있다고 가정) 결과는 다음 중 하나 일 수 있습니다. 잔차가 적은 매우 복잡한 함수 잔차가 큰 매우 간단한 함수 교차 검증은 일반적으로이 두 극단 사이의 "최상의"타협점을 찾는 데 사용됩니다. 그러나 "최고"는 무엇을 의미합니까? "가장 가능성이 높습니까?" 가장 가능성있는 …

16 model-selection cross-validation

1

lmer 모델에 사용할 다중 비교 방법 : lsmeans 또는 glht?

하나의 고정 효과 (조건)와 두 개의 임의 효과 (대상 내 설계 및 쌍으로 인해 참가자)가있는 혼합 효과 모델을 사용하여 데이터 세트를 분석하고 있습니다. lme4패키지로 모델이 생성되었습니다 exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). 다음으로, 고정 효과 (조건)없이 모형에 대해이 모형의 우도 비 검정을 수행했으며 유의 한 차이가 있습니다. 내 데이터 세트에는 3 가지 조건이 있으므로 다중 …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

5

선형 모형에서 중요하지 않은 수준의 요인에 대한 계수를 무시할 수 있습니까?

여기서 선형 모델 계수에 대한 설명을 찾은 후 요인 수준 계수에 대한 비의 미적 (높은 p 값)에 대한 후속 질문이 있습니다. 예 : 선형 모델에 10 개의 수준이있는 요인이 포함되어 있고 해당 수준 중 3 개만 관련 p 값이있는 경우 모형을 사용하여 Y를 예측할 때 대상이 다음 중 하나에 해당하는 …

15 statistical-significance linear-model model-selection regression-coefficients regression-strategies

2

LASSO / LARS 및 일반 대 특정 (GETS) 방법

왜 LASSO 및 LARS 모델 선택 방법이 기본적으로 단계별 순방향 선택의 변형이지만 경로 의존성을 겪을지라도 왜 그렇게 인기가 있는지 궁금합니다. 마찬가지로, 단계 선택 회귀 문제를 겪지 않기 때문에 LARS / LASSO보다 더 나은 모델 선택을위한 GETS (General to Specific) 방법이 왜 대부분 무시 되는가? (GETS에 대한 기본 참조 : http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf- …

15 feature-selection model-selection lasso stepwise-regression lars

4

동일한 자유 도로 혼합 효과 모델 비교

여기서 추상화하려고하는 실험이 있습니다. 내가 당신 앞에 하얀 돌 3 개를 던지고 그들의 위치에 대한 판단을 요구한다고 상상해보십시오. 나는 돌의 다양한 속성과 당신의 응답을 기록합니다. 나는 여러 과목에 걸쳐 이것을한다. 두 가지 모델을 생성합니다. 하나는 가장 가까운 돌이 응답을 예측하고 다른 하나는 돌의 기하학적 중심이 응답을 예측한다는 것입니다. 따라서 RI에서 …

15 r mixed-model model-selection

3

KNN을위한 최적의 K 선택

KNN을위한 최적의 K를 선택하기 위해 5 중 CV를 수행했습니다. 그리고 K가 클수록 오류가 작아지는 것처럼 보입니다 ... 죄송합니다. 범례가 없지만 색상이 다르면 시련이 다릅니다. 총 5 개가 있으며 그 사이에 약간의 차이가있는 것 같습니다. K가 커지면 오류는 항상 감소하는 것 같습니다. 그렇다면 최고의 K를 어떻게 선택할 수 있습니까? K = …

15 model-selection k-nearest-neighbour

1

곡선 적합에서 공분산 행렬을 어떻게 해석합니까?

나는 통계가 너무 좋지 않아서 이것이 단순한 질문이라면 사과드립니다. 일부 데이터에 곡선을 맞추고 때로는 내 데이터가 형식으로 음의 지수에 가장 잘 맞으며 때로는 적합이 a * e ( − b * x 2 )에 더 가깝습니다 . + c . 그러나 때로는 둘 다 실패하고 선형 피팅으로 돌아가고 싶습니다. 내 …

15 variance model-selection python curve-fitting covariance-matrix

4

올가미에 대한 최적의 페널티 선택

ℓ 1 페널티 항 계수의 최적 선택에 관한 분석 결과 또는 실험 논문이 있습니까? 하여 최적의 , 나는 최고의 모델, 또는 최소화 예상 손실을 선택하는 확률을 극대화 매개 변수를 의미한다. 문제의 인스턴스 수가 많거나 문제의 크기 때문에 교차 유효성 검사 또는 부트 스트랩으로 매개 변수를 선택하는 것이 실용적이지 않기 때문에 …

15 model-selection lasso shrinkage

1

logloss vs gini / auc

두 가지 모델 (h2o AutoML을 사용하는 이진 분류기)을 훈련했으며 사용할 모델을 선택하려고합니다. 다음과 같은 결과가 있습니다. model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 auc과 logloss열이 교차 유효성 검사 측정 항목 (교차 검증은 훈련 데이터를 사용). ..._train및 …

15 model-selection validation auc gini log-loss

«model-selection» 태그된 질문