«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리

2
능선 회귀가 LASSO보다 더 나은 해석 성을 제공 할 수없는 이유는 무엇입니까?
능선 회귀와 LASSO의 장단점에 대해 이미 알고 있습니다. LASSO의 경우, L1 페널티 항은 희소 계수 벡터를 생성하며, 이는 특징 선택 방법으로 볼 수 있습니다. 그러나 LASSO에는 몇 가지 제한 사항이 있습니다. 기능의 상관 관계가 높은 경우 LASSO는 그 중 하나만 선택합니다. 또한 > 인 문제의 경우 LASSO는 최대 매개 변수를 …

2
p- 값을 기준으로 기능을 선택하는 것이 잘못 되었습니까?
기능을 선택하는 방법에 대한 몇 가지 게시물이 있습니다. 이 방법 중 하나는 t- 통계량에 따라 기능의 중요성을 설명합니다. 표준화 된 피쳐가있는 varImp(model)선형 모형에 적용된 R에서는 각 모형 매개 변수에 대한 t- 통계량의 절대 값이 사용됩니다. 따라서 기본적으로 t- 통계량을 기준으로 피처를 선택합니다. 이는 계수의 정확도를 의미합니다. 그러나 나의 계수의 정확성은 …

1
변수 선택과 모델 선택
따라서 변수 선택은 모델 선택의 일부라는 것을 알고 있습니다. 그러나 모델 선택은 정확히 무엇으로 구성됩니까? 다음 이상입니다 : 1) 모형의 분포를 선택하십시오 2) 설명 변수를 선택하십시오. 나는 Burnham & Anderson : AIC vs BIC 기사를 읽고 모델 선택에서 AIC와 BIC에 대해 이야기 하기 때문에 이것을 묻습니다 . 내가 '변수 선택'과 …

5
용어 빈도 / 역 문서 빈도 (TF / IDF) : 가중치
1000 개의 문서와 그 안에 나타나는 모든 단어를 나타내는 데이터 세트가 있습니다. 따라서 행은 문서를 나타내고 열은 단어를 나타냅니다. 그래서 예를 들어, 셀의 값은 시간을 나타내며, 워드 문서 발생 . 이제 tf / idf 방법을 사용하여 단어의 '무게'를 찾아야하지만 실제로이 작업을 수행하는 방법을 모르겠습니다. 누군가 나를 도울 수 있습니까?j i(i,j)(i,j)(i,j)jjjiii

5
회귀 및 분류를 모두 수행하는 R의 기능 선택 패키지
잠김 . 이 질문과 주제는 주제가 다르지만 역사적으로 중요하기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 저는 R을 처음 사용합니다. 지금 기계 학습을 배우고 있습니다. 이 질문이 매우 기본적인 것으로 보이는 경우 매우 죄송합니다. R에서 좋은 기능 선택 패키지를 찾으려고합니다. Boruta 패키지를 살펴 보았습니다. 좋은 패키지이지만 …

2
기능 수를 늘리면 성능이 저하되는 이유는 무엇입니까?
기능 수를 늘리면 성능이 저하 될 수있는 이유에 대한 직관을 얻으려고합니다. 현재 LDA 분류기를 사용하고 있습니다.이 기능은 특정 기능 사이에서 이변 형이 더 우수하지만 더 많은 기능을 볼 때 더 나쁩니다. 분류 정확도는 계층화 된 10 배 xval을 사용하여 수행됩니다. 분류자가이 높은 차원에서 일어나고있는 것에 대한 물리적 또는 공간적 직관을 …


1
R-자유도에서 PROC Mixed과 lme / lmer의 차이점
참고 :이 질문은 법적 이유로 인해 이전 질문을 삭제해야했기 때문에 다시 게시되었습니다. SAS의 PROC MIXED를 R lme의 nlme패키지 기능과 비교하는 동안 다소 혼란스러운 차이점을 발견했습니다. 구체적으로는, 다른 시험에서 자유도간에 상이 PROC MIXED하고 lme, 그리고 왜 생각해. 다음 데이터 세트에서 시작하십시오 (아래 제공된 R 코드). ind : 측정 대상을 나타내는 계수 …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
회귀 모형에서 변수를 어떻게 선택합니까?
변수 선택에 대한 기존의 접근 방식은 새로운 반응을 예측하는 데 가장 크게 기여하는 변수를 찾는 것입니다. 최근에 나는 이것에 대한 대안을 배웠다. 예를 들어 제약의 임상 시험에서와 같이 치료 효과를 결정하는 모델링 변수에서 변수는 정 성적으로 상호 작용 한다고합니다.다른 것들을 고정시킨 채로 그 변수의 변화가 치료가 가장 효과적인 변화를 만들 …

2
의미 적 의미를 유지하는 도메인에 구애받지 않는 기능 엔지니어링?
형상 공학은 종종 기계 학습에 중요한 구성 요소입니다 ( 2010 년 KDD 컵 우승에 크게 사용됨 ). 그러나 대부분의 기능 엔지니어링 기술은 기본 기능의 직관적 인 의미를 파괴하거나 특정 도메인 또는 특정 유형의 기능에 매우 구체적입니다. 전자의 전형적인 예는 주성분 분석입니다. 주제 관련 전문가가 해당 기능에 대해 알고있는 지식은 해당 …

5
PCA를 사용하여 군집 분석을위한 변수 선택을 수행 할 수 있습니까?
군집 분석을 수행하려면 변수 수를 줄여야합니다. 내 변수는 서로 밀접하게 관련되어 있으므로 요인 분석 PCA (주성분 분석) 를 수행 하는 것으로 생각했습니다 . 그러나 결과 점수를 사용하면 클러스터가 정확하지 않습니다 (문헌의 이전 분류와 비교). 질문: 회전 행렬을 사용하여 각 구성 요소 / 인자에 대해 가장 큰 부하를 갖는 변수를 선택하고 …

4
LASSO 모델에 ILS (Iteratively Reweighted Least Squares) 방법을 적용하는 방법은 무엇입니까?
IRLS 알고리즘을 사용하여 로지스틱 회귀를 프로그래밍했습니다 . 올바른 기능을 자동으로 선택하기 위해 LASSO 처벌 을 적용하고 싶습니다 . 각 반복에서 다음이 해결됩니다. (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} 하자 음수가 아닌 실수합니다. 나는 The Elements of 에서 제안한 것처럼 요격을 처벌하지 않습니다 . 통계 학습 . 이미 0의 계수에 대한 차이. 그렇지 않으면 오른쪽에서 …

4
기능 선택에서 올가미가 불안정 해지는 원인은 무엇입니까?
압축 감지에서는 에 고유 한 희소 솔루션 c 가 있음을 보장하는 정리 가 있습니다 (자세한 내용은 부록 참조).argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc 올가미에 대한 비슷한 정리가 있습니까? 그러한 정리가 있다면 올가미의 안정성을 보장 할뿐만 아니라 올가미에보다 의미있는 해석을 제공합니다. 올가미 …

2
임의 포리스트에 대한 캐럿을 사용한 기능 선택 및 매개 변수 조정
수천 개의 기능이있는 데이터가 있으며 정보가없는 기능을 제거하기 위해 재귀 적 기능 선택 (RFE)을 수행하려고합니다. 캐럿 과 RFE 로이 작업을 수행합니다 . 그러나 최상의 회귀 적합도 (예 : 임의 포리스트)를 얻으려면 언제 매개 변수 조정 ( mtryRF)을 수행해야하는지 생각하기 시작했습니다 . 즉, 캐럿이 이해하는 것처럼 고정 mtry로 다른 기능 하위 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.