통계 및 빅 데이터 model-selection

4

Leave-one-Out 교차 검증에 대한 Shao의 결과는 언제 적용됩니까?

Jun Shao는 그의 논문 인 Cross-Validation에 의한 Linear Model Selection 에서 다변량 선형 회귀 분석에서 변수 선택 문제에 대해 LOOCV (Leave-One-Out Cross Validation) 방법이 '무증상 일관성이 없음'을 보여줍니다. 일반 영어에서는 변수가 너무 많은 모델을 선택하는 경향이 있습니다. 시뮬레이션 연구에서 Shao는 40 개의 관측치조차도 LOOCV가 다른 교차 검증 기술보다 성능이 떨어질 …

22 classification model-selection cross-validation

3

ACF 및 PACF 플롯 분석

ACF 및 PACF 플롯을 올바르게 분석하고 있는지 확인하고 싶습니다. 배경 : (Reff : 1998 년 필립 한스 프랜시스) ACF와 PACF 모두 중요한 값을 보여 주므로 ARMA 모델이 내 요구를 충족시킬 것이라고 가정합니다. ACF는 MA- 부분, 즉 q- 값을 추정하는데 사용될 수 있고, PACF는 AR- 부분, 즉 p- 값을 추정하는데 사용될 …

21 time-series model-selection arma statsmodels

1

Firth 로지스틱 회귀 분석을 통한 모델 선택

내가 작업하고 있는 작은 데이터 세트 ( )에서 여러 변수가 완벽한 예측 / 분리를 제공 합니다. 따라서 Firth 로지스틱 회귀 를 사용하여 문제를 해결합니다.n∼100n∼100n\sim100 AIC 또는 BIC에 의해 최상의 모델을 선택할 경우 이러한 정보 기준을 계산할 때 Firth 페널티 항을 가능성에 포함시켜야합니까?

21 logistic model-selection aic separation

2

모델 선택 후 교차 검증 (오류 일반화)

참고 : 사례는 n >> p입니다. 통계 학습의 요소를 읽고 있으며 교차 검증을 수행하는 "올바른"방법에 대한 다양한 언급이 있습니다 (예 : 60 페이지, 245 페이지). 특히, 내 질문은 모델 검색이있을 때 k- 폴드 CV 또는 부트 스트랩을 사용하여 (별도의 테스트 세트없이) 최종 모델을 평가하는 방법입니다. 대부분의 경우 (내장 기능 선택이없는 …

21 machine-learning model-selection data-mining cross-validation

4

PCA 공간에 새로운 벡터를 투영하는 방법?

주성분 분석 (PCA)을 수행 한 후 PCA 공간에 새 벡터를 투영하려고합니다 (즉, PCA 좌표계에서 해당 좌표를 찾습니다). 를 사용하여 R 언어로 PCA를 계산했습니다 prcomp. 이제 내 벡터에 PCA 회전 행렬을 곱할 수 있어야합니다. 이 매트릭스의 주요 구성 요소를 행 또는 열로 배열해야합니까?

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

6

회귀 모형에서 항을 언제 제거해야합니까?

다음과 같은 경우에 누군가가 조언 할 수 있습니까? 나는 4 개의 예측 변수가있는 일반적인 선형 모델을 다루고 있습니다. 가장 중요한 용어를 삭제할지 두 가지 생각을합니다. 그것의 - 값은 0.05 이상 조금이다. 이 항을 따라이 항을 떨어 뜨리는 것에 찬성하여 주장했습니다.이 항의 추정치에이 변수에 대한 표본 데이터의 사 분위수 범위를 곱하면이 …

20 regression model-selection

4

엣지 케이스의 정밀도 및 리콜에 대한 올바른 값은 무엇입니까?

정밀도는 다음과 같이 정의됩니다. p = true positives / (true positives + false positives) 로, 즉를 정확 true positives하고 false positives, 정밀도가 한 접근 방식 0? 리콜에 대한 동일한 질문 : r = true positives / (true positives + false negatives) 현재이 값을 계산 해야하는 통계 테스트를 구현 중이며 때로는 …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

중첩 교차 검증 후 최종 모델을 작성하고 확률 임계 값을 조정하는 방법은 무엇입니까?

먼저, 여기 , 여기 , 여기 , 여기 , 여기 에서 이미 오랫동안 논의 된 질문을 게시 한 것에 대해 사과드립니다이전 주제를 재가열합니다. 나는 @DikranMarsupial 이이 주제에 대해 게시물과 저널 논문에 길게 쓴 것을 알고 있지만 여전히 혼란스럽고 비슷한 게시물 수를 판단하면 다른 사람들이 이해하기 어려워합니다. 또한 혼란에 추가 한이 …

20 machine-learning cross-validation model-selection glmnet hyperparameter

2

예측이 아닌 모델링에만 관심이있는 경우 정규화가 도움이 될 수 있습니까?

예측이나 예측이 아닌 모형 매개 변수 추정 (및 해석)에만 관심이있는 경우 정규화가 도움이 될 수 있습니까? 새 데이터에 대한 좋은 예측을 내리는 것이 목표 인 경우 정규화 / 교차 유효성 검사가 얼마나 유용한 지 잘 알고 있습니다. 그러나 만약 당신이 전통적인 경제학을하고 있고 당신이 관심있는 모든 것을 추정하는 것이라면 ββ\beta? …

19 cross-validation econometrics model-selection interpretation regularization

2

선형 혼합 모델에서 랜덤 효과 및 고정 효과 구조를 선택하는 방법은 무엇입니까?

과목 디자인 내에서 양방향으로 얻은 다음 데이터를 고려하십시오. df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 …

19 mixed-model repeated-measures model-selection lme4-nlme likelihood-ratio

7

모델 복잡성 측정

동일한 수의 매개 변수로 두 모델의 복잡성을 어떻게 비교할 수 있습니까? 편집 09/19 : 명확히하기 위해 모델 복잡성은 제한된 데이터에서 배우기가 얼마나 어려운지를 측정합니다. 두 모델이 기존 데이터에 동일하게 적합 할 경우 복잡성이 낮은 모델은 향후 데이터에 대한 오류를 줄입니다. 근사값을 사용하는 경우 기술적으로 항상 사실은 아니지만 실제로 적용되는 경향이 …

19 model-selection

1

모델 선택의 역설 (AIC, BIC, 설명 또는 예측?)

Galit Shmueli의 "설명하거나 예측하다" (2010) 를 읽은 나는 명백한 모순에 의아해한다. 세 가지 전제가 있습니다 AIC 대 BIC 기반 모델 선택 (300 페이지의 끝-301 페이지의 시작) : 간단히 말해 AIC는 예측 을위한 모델을 선택하는 데 사용되고 BIC는 설명을 위한 모델을 선택하는 데 사용해야합니다 . 또한 (위의 논문에서는 제외) 일부 조건에서 …

18 forecasting model-selection feature-selection aic bic

4

선형, 지수 및 로그 함수에서 최적 피팅 곡선 피팅 함수 결정

문맥: Mathematics Stack Exchange (프로그램을 작성할 수 있습니까?) 에 대한 질문에서 누군가 점 세트 를 가지고 있으며 선형, 지수 또는 로그에 곡선을 맞추고 싶습니다. 일반적인 방법은 다음 중 하나를 선택하여 시작하고 (모델 지정) 통계 계산을 수행하는 것입니다.x - y엑스−와이x-y 그러나 실제로 원하는 것은 선형, 지수 또는 대수에서 '최상의'곡선을 찾는 것입니다. …

18 regression predictive-models model-selection curve-fitting

1

BIC는 실제 모델을 찾으려고합니까?

이 질문은 주제 I과 관련하여 가능한 혼란을 없애기위한 후속 조치 또는 시도이며, 많은 사람들이 AIC와 BIC의 차이점에 대해 조금 어려워합니다. 이 주제에 대한 @Dave Kellen의 매우 좋은 답변 ( /stats//a/767/30589 )에서 우리는 다음을 읽습니다. 귀하의 질문은 AIC와 BIC가 동일한 질문에 대답하려고 시도한다는 것을 암시합니다. AIC는 알려지지 않은 높은 차원의 현실을 …

17 model-selection aic bic

3

Hosmer et al.을 이용한 모델 구축 및 선택 2013. R의 로지스틱 회귀 적용

이것은 StackExchange에 대한 첫 번째 게시물이지만 꽤 오랫동안 리소스로 사용 해 왔으며 적절한 형식을 사용하고 적절한 편집을 위해 최선을 다할 것입니다. 또한 이것은 여러 부분으로 구성된 질문입니다. 질문을 여러 개의 다른 게시물 또는 하나의 게시물로 나눌 것인지 확실하지 않았습니다. 질문은 모두 같은 텍스트에서 한 섹션에 있기 때문에 하나의 질문으로 게시하는 …

17 r logistic model-selection regression-strategies

«model-selection» 태그된 질문