«model-selection» 태그된 질문

모델 선택은 일부 세트에서 어떤 모델이 가장 잘 수행되는지 판단하는 문제입니다. 많이 사용되는 방법에는 , AIC 및 BIC 기준, 테스트 세트 및 교차 검증이 있습니다. 어느 정도 기능 선택은 모델 선택의 하위 문제입니다. R2

6
두 개의 다른 랜덤 포레스트 모델의 R- 제곱 비교
R의 randomForest 패키지를 사용하여 샘플보다 더 많은 예측 변수를 사용하여 "와이드"데이터 세트에서 지속적인 결과를 설명하기 위해 랜덤 포레스트 모델을 개발하고 있습니다. 특히, 하나의 RF 모델을 사용하여 절차에서 중요하다고 생각하는 ~ 75 개의 예측 변수를 선택할 수 있습니다. 이전에 여기에 게시 된 접근 방식을 사용하여 해당 모델이 예약 된 테스트 세트의 …

2
상대 비교 대신 절대적으로 사용할 수있는 모형 적합 통계 (예 : AIC 또는 BIC)가 있습니까?
나는이 문헌에 익숙하지 않기 때문에 이것이 명백한 질문이라면 용서해주십시오. AIC와 BIC는 가능성을 최대화하는 데 의존하기 때문에 주어진 데이터 세트에 맞추려고 시도하는 모델 세트를 상대적으로 비교하는 데만 사용할 수 있습니다. 내 이해에 따르면 데이터 세트 1에서 모델 A의 AIC를 계산하고 데이터 세트 2에서 모델 B의 AIC를 계산 한 다음 두 AIC …

3
베이지안 모델 선택 및 신뢰할 수있는 간격
모든 변수가 정량적 인 3 개의 변수가있는 데이터 세트가 있습니다. 그것을 , 및 라고합시다 . MCMC를 통해 베이지안 관점에서 회귀 모델을yyyx1x1x_1x2x2x_2rjags 탐색 적 분석을 수행했으며 의 산점도 는 2 차 항을 사용해야한다고 제안합니다. 그런 다음 두 가지 모델을 장착했습니다y×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 모델 1에서 각 매개 변수의 효과 크기는 작지 …

3
일반화 선형 혼합 모델 : 모델 선택
이 질문 / 주제는 동료와의 토론에서 나 왔으며 이것에 대한 의견을 찾고있었습니다. 랜덤 효과 로지스틱 회귀, 더 정확하게는 임의의 가로 채기 로지스틱 회귀를 사용하여 일부 데이터를 모델링하고 있습니다. 고정 효과의 경우 관심있는 9 개의 변수가 있습니다. 중요한 변수를 찾고“최상의”모델을 제공하기 위해 일종의 모델 선택을하고 싶습니다 (주요 효과 만). 첫 번째 …

1
상호 배타적이지 않은 카테고리를 분류 할 수있는 딥 러닝 모델
예 : 직업 설명에 "영국의 Java Senior Engineer"문장이 있습니다. 나는 2 개 종류로 예측하는 깊은 학습 모델을 사용하려면 : English 와 IT jobs. 기존 분류 모델을 사용하는 경우 softmax마지막 레이어에서 함수가있는 레이블 하나만 예측할 수 있습니다 . 따라서 두 모델 신경망을 사용하여 두 범주 모두에서 "예"/ "아니오"를 예측할 수 있지만 …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
시계열 모델에서 적절한 지연 순서를 선택하기 위해 왜 정보 기준 (조정되지 않은 )이 사용됩니까?
ARMA-GARCH와 같은 시계열 모델에서는 적절한 지연 또는 모델 순서를 선택하기 위해 AIC, BIC, SIC 등과 같은 다른 정보 기준이 사용됩니다. 내 질문은 매우 간단합니다. 왜 우리는 조정 된 R2R2R^2 를 사용 하여 적절한 모델을 선택하지 않습니까? 조정 된 R ^ 2 값을 높이는 모델을 선택할 수 있습니다 R2R2R^2. 조정 된 …

4
AIC 가치의 해석
로지스틱 모델에 대해 본 AIC의 일반적인 값은 수천, 적어도 수백입니다. 예를 들어 http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ 에서 AIC는 727.39입니다. AIC는 모델을 비교하기 위해서만 사용해야한다고 항상 말하지만 특정 AIC 값의 의미를 이해하고 싶었습니다. 공식에 따라 I씨= − 2 로그( L ) + (2) KAIC=−2log⁡(L)+2KAIC= -2 \log(L)+ 2K L = MLE 추정기의 최대 우도에서 K는 …

1
k- 폴드 CV를 사용한 오리지널 (?) 모델 선택
k- 폴드 CV를 사용하여 회귀 모델 중에서 선택하는 경우 일반적으로 표준 오류 SE와 함께 각 모델에 대해 개별적으로 CV 오류를 계산하고 CV 오류가 가장 낮은 모델의 1 SE 내에서 가장 간단한 모델을 선택합니다 (1 표준 오류 규칙 (예 : 여기 참조 ). 그러나 최근 에이 방법으로 변동성을 과대 평가하고 있으며 …

1
적절한 채점 규칙이 분류 설정에서 일반화에 대한 더 나은 추정치는 언제입니까?
분류 문제를 해결하는 일반적인 방법은 후보 모델 클래스를 식별 한 다음 교차 검증과 같은 일부 절차를 사용하여 모델 선택을 수행하는 것입니다. 일반적으로 가장 높은 정확도를 가진 모델을 선택하거나 다음과 같은 문제 별 정보를 인코딩하는 관련 기능을 선택합니다.에프βFβ\text{F}_\beta. 최종 목표가 정확한 분류 자 ​​(정확도의 정의가 다시 문제에 의존하는 경우)를 생성하는 것으로 …

1
모형 선택에서 AIC와 p- 값의 동등성
이 질문 에 대한 답변 에서 모델 선택에 AIC를 사용하는 것은 p- 값 0.154를 사용하는 것과 동일하다고 언급되었습니다. R에서 시도했습니다. 여기서 "뒤로"하위 세트 선택 알고리즘을 사용하여 전체 사양에서 변수를 제거했습니다. 먼저, p- 값이 가장 높은 변수를 순차적으로 버리고 모든 p- 값이 0.154 미만이면 중지하고, 두 번째로, 개선 할 수 없을 …

2
이진 분류 문제에 사용할 SVM 커널은 무엇입니까?
나는 벡터 머신을 지원할 때 초보자입니다. 특정 문제에 가장 적합한 커널 (예 : 선형, 다항식)을 나타내는 지침이 있습니까? 내 경우에는 특정 정보가 포함되어 있는지 여부에 따라 웹 페이지를 분류해야합니다. 즉, 이진 분류 문제가 있습니다. 일반적으로이 작업에 가장 적합한 커널을 말할 수 있습니까? 아니면 특정 데이터 세트에서 여러 데이터를 사용 해보고 …

2
모델 선택 절차에 대한 정규 계산 및 해석, 하위 집합 계산 문제
를 사용하여 모델을 선택하고 싶습니다 regsubsets(). olympiadaten (데이터 업로드 : http://www.sendspace.com/file/8e27d0 ) 이라는 데이터 프레임이 있습니다 . 먼저이 데이터 프레임을 첨부 한 다음 분석을 시작합니다. 내 코드는 다음과 같습니다. attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + PopTotal …

4
로지스틱 회귀 분석에서 모델 선택 및 모델 성능
로지스틱 회귀 분석에서 모델 선택 및 모델 성능에 대한 질문이 있습니다. 세 가지 다른 가설을 기반으로하는 세 가지 모델이 있습니다. 처음 두 모델 (z 및 x로 이름 지정)은 각 모델에서 하나의 설명 변수 만 가지며 세 번째 모델 (w로 이름 지정)은 더 복잡합니다. 나는 w 모델에 대한 변수 선택을 위해 …

4
다중 회귀 분석에서 변수 수 감소
시간이 지남에 따라 인덱스 펀드의 동작을 예측하기 위해 다중 회귀 분석에 사용할 수있는 수백 가지 재무 변수 값으로 구성된 큰 데이터 세트가 있습니다. 가능한 많은 예측력을 유지하면서 변수 수를 10 정도로 줄이려고합니다. 추가 : 감소 된 변수 세트는 원래 변수의 경제적 의미를 유지하기 위해 원래 변수 세트의 서브 세트 여야합니다. …

1
베이지안 정보 기준에서 이산 또는 이진 매개 변수 계산
BIC는 매개 변수 수에 따라 불이익을줍니다. 일부 매개 변수가 일종의 이진 표시기 변수 인 경우 어떻게합니까? 이것들은 완전한 매개 변수로 간주됩니까? 하지만 결합 할 수 있습니다미디엄mm 이진 매개 변수를 하나의 이산 변수로 변환하여 값을 가져옵니다. { 0 , 1 , . . . ,2미디엄− 1 }{0,1,...,2m−1}\{0,1,...,2^m-1\}. 이것들은 다음과 같이 계산됩니까?미디엄mm …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.