«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리

8
자동 모델 선택을위한 알고리즘
자동 모델 선택을위한 알고리즘을 구현하고 싶습니다. 나는 단계적 회귀를 할 생각이지만 아무것도 할 것입니다 (선형 회귀를 기반으로해야합니다). 내 문제는 방법론이나 오픈 소스 구현을 찾을 수 없다는 것입니다 (Java에서 깨우고 있습니다). 내가 생각하는 방법은 다음과 같습니다. 모든 요인의 상관 행렬을 계산 서로 관련성이 낮은 요소를 선택하십시오 t-stat가 낮은 요인 제거 다른 …

3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
기능 선택 및 교차 검증
나는 최근에이 사이트 (@Aniko, @Dikran Marsupial, @Erik)와 교차 검증에서 발생하는 과잉 적합 문제에 대해 많은 것을 읽었습니다. 제안은이다 모든 감독 기능 선택 (클래스 라벨 상관을 이용)을 초래할 수 overfitting 교차 검증 (또는 부트 스트랩으로 추정 방식의 다른 모델)을 사용하여 모델의 성능 평가의 외부에서 수행. 이것은 직관적이지 않은 것 같습니다. 특징 …

6
머신 러닝에서 교차 검증을 수행 할 때 "최종"모델을위한 기능 선택
기능 선택 및 기계 학습에 대해 약간 혼란스러워하며 도움이되는지 궁금합니다. 두 그룹으로 분류되고 1000 개의 기능을 가진 마이크로 어레이 데이터 세트가 있습니다. 내 목표는 이론적으로 다른 데이터 세트에 적용하여 해당 샘플을 최적으로 분류 할 수있는 서명으로 소수의 유전자 (내 특징) (10-20)를 얻는 것입니다. 샘플 수가 많지 않기 때문에 (<100), 테스트 …

3
올가미가 변수 선택을 제공하는 이유는 무엇입니까?
나는 통계 학습의 요소를 읽고 있었고 , 올가미가 변수 선택을 제공하고 능선 회귀가 그렇지 않은 이유를 알고 싶습니다. 두 방법 모두 잔차 제곱합을 최소화하고 매개 변수 의 가능한 값을 제한합니다 . 올가미의 경우 제약 조건은 이며, 능선의 경우 일부 입니다.ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt 나는 책에서 다이아몬드 대 타원 그림을 …

6
2016 년에 실제로 필요한 예측 모델링을위한 변수 선택?
이 질문은 몇 년 전 CV에서 1) 훨씬 더 나은 컴퓨팅 기술 (예 : 병렬 컴퓨팅, HPC 등) 및 2) 새로운 기술 (예 : [3])을 고려하여 다시 게시 할 가치가있는 것으로 보입니다. 먼저, 어떤 맥락. 목표가 가설 검정이 아니라 효과 추정이 아니라 보이지 않는 검정 세트에 대한 예측이라고 가정합시다. 따라서 …

9
회귀 변수 선택에 올가미를 사용할 때의 단점은 무엇입니까?
내가 아는 것에서 변수 선택에 올가미를 사용하면 상관 된 입력 문제를 처리합니다. 또한 최소 각도 회귀와 같으므로 계산 속도가 느리지 않습니다. 그러나 많은 사람들 (예 : 생체 통계를하는 사람들)은 여전히 ​​단계별 또는 단계적 변수 선택을 선호합니다. 올가미를 사용하는 것이 유리하지 않은 실질적인 단점이 있습니까?


2
변수 선택에 대한보다 명확한 토론
배경 저는 의학에서 임상 연구를하고 있으며 몇 가지 통계 과정을 수강했습니다. 선형 / 로지스틱 회귀를 사용하여 논문을 출판 한 적이 없으며 변수 선택을 올바르게하고 싶습니다. 해석 성이 중요하므로 멋진 기계 학습 기술이 없습니다. 나는 변수 선택에 대한 나의 이해를 요약했다. 누군가가 어떤 오해에 대해서도 밝힐 까? 내가 발견 이 (1) …

3
피처 선택에 PCA (Principal Component Analysis) 사용
저는 기능 선택을 처음 사용했으며 PCA를 사용하여 기능 선택을 수행하는 방법이 궁금합니다. PCA는 정보가없는 입력 변수를 필터링하는 데 사용할 수있는 각 입력 변수에 대한 상대 점수를 계산합니까? 기본적으로 포함 된 정보의 양 또는 차이에 따라 데이터의 원래 기능을 주문할 수 있기를 원합니다.


6
시계열 분류 기능
가변 길이 시계열 을 기반으로 한 (멀티 클래스) 분류 의 문제 , 즉 함수 , 와 독립적으로 고정 된 크기 의 선택된 피처 세트로 시간 세리의 전역 표현을 통해 를 입력 한 다음이 기능 세트에 표준 분류 방법을 사용하십시오. 난 있지 , 예측에 관심이있는, 즉 예측TTTf(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with …

5
SVM 기능 가중치를 어떻게 해석합니까?
선형 SVM을 피팅하여 주어진 가변 가중치를 해석하려고합니다. (나는 scikit-learn 사용하고 있습니다 ) : from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ 설명서에서 이러한 가중치를 계산하거나 해석하는 방법을 구체적으로 나타내는 내용을 찾을 수 없습니다. 체중의 표시는 수업과 관련이 있습니까?

5
변수 선택을 위해 R의 lars (또는 glmnet) 패키지에서 LASSO 사용
이 질문에 약간의 기초가 있다면 미안합니다. R의 다중 선형 회귀 모델에 LASSO 변수 선택을 사용하려고합니다. 15 개의 예측 변수가 있는데 그중 하나는 범주 형입니다 (문제를 일으킬 수 있습니까?). 내 와 설정 한 후 다음 명령을 사용합니다.y엑스xx와이yy model = lars(x, y) coef(model) 내 문제는 내가 사용할 때 coef(model)입니다. 이렇게하면 매 15 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.