«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리


7
다중 선형 회귀 모형에 포함 할 변수 선택
현재 다중 선형 회귀를 사용하여 모델을 작성하려고합니다. 내 모델을 둘러 본 후에는 유지할 변수와 제거 할 변수를 가장 잘 결정하는 방법을 모르겠습니다. 내 모델은 DV에 대한 10 개의 예측 변수로 시작했습니다. 10 개의 예측 변수를 모두 사용할 때 4 개가 유의 한 것으로 간주되었습니다. 명백히 틀린 예측 변수 중 일부만 …


5
많은 독립 변수에서 유의 한 예측 변수 탐지
겹치지 않는 두 인구 (환자 및 건강, 총 ) 의 데이터 세트 에서 연속 종속 변수에 대한 중요한 예측 변수 ( 독립 변수 중) 를 찾고 싶습니다 . 예측 변수 사이의 상관 관계가 있습니다. 나는 예측 변수 중 어느 것이 종속 변수를 가능한 정확하게 예측하기보다는 "실제로"종속 변수와 관련이 있는지 알아내는 …

3
변수 선택이 필요한 이유는 무엇입니까?
일반적인 데이터 기반 변수 선택 절차 (예 : 정방향, 역방향, 단계적, 모든 하위 집합)는 다음을 포함하여 바람직하지 않은 속성을 가진 모델을 생성하는 경향이 있습니다. 계수는 0에서 멀어졌습니다. 너무 작은 표준 오차와 너무 좁은 신뢰 구간 알려진 의미가없는 통계 및 p- 값을 테스트합니다. 지나치게 낙관적 인 모형 적합 추정치. 의미가없는 포함 …

6
이진 분류를위한 변수 선택 절차
학습 세트의 관측치보다 많은 변수 / 기능이있을 때 이진 분류에 선호 하는 변수 / 기능 선택 은 무엇입니까 ? 여기서 목표는 분류 오류를 최대한 줄이는 기능 선택 절차가 무엇인지 논의하는 것입니다. 우리는 할 수 있습니다 표기법을 수정 일관성을 위해 : 대한 ,하자 수 관찰 학습 세트를 그룹에서 . 따라서 은 …

3
변수 선택을 수행 할 때 다중 공선 성을 다루는 방법은 무엇입니까?
9 개의 연속 독립 변수가있는 데이터 세트가 있습니다. 모델을 단일 백분율 (종속) 변수에 맞추기 위해 이러한 변수 중에서 선택하려고합니다 Score. 불행히도, 나는 여러 변수 사이에 심각한 공선 성이 있음을 알고 있습니다. stepAIC()변수 선택을 위해 R 의 함수를 사용해 보았지만 그 방법은 변수가 방정식에 나열된 순서에 민감한 것 같습니다 ... 내 …

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

5
PCA가 분류기의 결과를 악화시키는 원인은 무엇입니까?
교차 유효성 검사를 수행하는 분류 기가 있으며, 기능의 최적 조합을 찾기 위해 앞으로 선택하는 백여 가지 기능이 있습니다. 또한 PCA로 동일한 실험을 실행하는 것과 비교할 수 있는데, 여기서 잠재적 인 특징을 취하고 SVD를 적용하며 원래 신호를 새로운 좌표 공간으로 변환하고 앞으로 선택 프로세스에서 상위 기능을 사용합니다 .kkk 신호는 원래의 기능보다 …

3
올가미 식별 변수 하위 집합에서 OLS 추정치보다 올가미 추정치를 사용하는 이유는 무엇입니까?
올가미 회귀 분석 경우 최상의 솔루션 (예 : 최소 테스트 오류)이 k 개의 피처를 선택한다고 가정합니다 . 그래서 \ 모자 {\ 베타가} ^ {올가미} = \ 좌측 (\ 모자 {\ 베타 _1} ^ {올가미} \ {모자 \ 베타 _2} ^ {올가미} ... \ 모자 {\ 베타} _k ^ {lasso}, 0, …

6
훈련보다 높은 테스트 정확도. 해석하는 방법?
많은 기능 (1000 이상)이있는 최대 150 개의 예제 (훈련 및 테스트에 분할)가 포함 된 데이터 세트가 있습니다. 데이터에서 잘 수행되는 분류기와 기능 선택 방법을 비교해야합니다. 그래서 다른 검색 방법 (Greedy, BestFirst)과 함께 세 가지 분류 방법 (J48, NB, SVM)과 두 가지 기능 선택 방법 (CFS, WrapperSubset)을 사용하고 있습니다. 비교하면서 저는 …

3
소개 : 고전적인 "큰 p, 작은 n 문제"의 데이터 집합이 있습니다. 사용 가능한 샘플 수는 n = 150이고 가능한 예측 변수 수는 p = 400입니다. 결과는 연속 변수입니다. 가장 중요한 "설명자", 즉 결과를 설명하고 이론을 세우는 데 가장 적합한 후보자를 찾고 싶습니다. 이 주제에 대한 연구 후 LASSO와 Elastic Net이 …

2
모델 선택 베이지안 또는 교차 검증에 가장 적합한 방법은 무엇입니까?
다양한 모델 또는 포함 할 기능의 수를 선택하려고 할 때 예측이라고하면 두 가지 접근법을 생각할 수 있습니다. 데이터를 학습 및 테스트 세트로 분할하십시오. 더 나은 방법은 부트 스트랩 또는 k- 폴드 교차 검증을 사용하는 것입니다. 매번 훈련 세트를 훈련시키고 테스트 세트에 대한 오차를 계산하십시오. 테스트 오류 대 매개 변수 수를 …


1
LASSO가 높은 차원에서 완벽한 예측 변수 쌍을 찾지 못하는 이유는 무엇입니까?
완벽한 예측 변수 쌍을 찾을 수 있는지 테스트하기 위해 R에서 LASSO 회귀로 작은 실험을 진행하고 있습니다. 쌍은 다음과 같이 정의됩니다 : f1 + f2 = 결과 결과는 '나이'라고하는 미리 정해진 벡터입니다. F1 및 f2는 연령 벡터의 절반을 취하고 나머지 값을 0으로 설정하여 작성합니다 (예 : age = [1,2,3,4,5,6], f1 = …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.