«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리

2
Bayes Estimator는 선택 바이어스에 면역입니다
Bayes 추정기는 선택 바이어스에 면역성이 있습니까? 전체 게놈 서열 데이터와 같은 높은 차원의 추정에 대해 논의하는 대부분의 논문은 종종 선택 편향 문제를 제기합니다. 선택 편견은 수천 개의 잠재적 예측 변수가 있지만 선택되는 소수는 거의 없으며 선택된 소수에 대해서는 추론이 수행된다는 사실에서 비롯됩니다. 따라서 프로세스는 두 단계로 진행됩니다. (1) 예측 변수의 …

1
베이지안 스파이크 및 슬래브 대 벌점 법
BSTS R 패키지에 대한 Steven Scott의 슬라이드를 읽고 있습니다 (여기에서 찾을 수 있습니다 : 슬라이드 ). 어떤 시점에서, 구조 시계열 모델에 많은 회귀자를 포함하는 것에 대해 이야기 할 때 회귀 계수의 스파이크 및 슬래브 사전을 소개하고 처벌 된 방법에 비해 더 우수하다고 말합니다. Scott은 100 개의 예측 변수가있는 데이터 세트의 …

1
융기 부분과 올가미가 각각 잘 수행되지만 다른 계수를 생성 할 때 결과를 해석하는 방법
Lasso와 Ridge를 모두 사용하여 회귀 모델을 실행 중입니다 (0-5 범위의 이산 결과 변수 예측). 모델을 실행하기 전에 기능 세트를 250 에서 25 로 줄이는 SelectKBest방법을 사용 합니다. 초기 피처를 선택하지 않으면 Lasso와 Ridge는 정확도 점수가 낮아집니다 (샘플 크기가 작은 600 일 수 있음). 또한 일부 기능은 서로 관련되어 있습니다.scikit-learn 모델을 …

1
분류 작업에서 기능 선택이 중요한 이유는 무엇입니까?
기능 선택에 대해 배우고 있습니다. 모델 구축에 왜 이것이 중요하고 유용한 지 알 수 있습니다. 그러나지도 학습 (분류) 작업에 중점을 두겠습니다. 분류 작업에서 기능 선택이 중요한 이유는 무엇입니까? 피처 선택과지도 학습을위한 사용법에 관한 많은 문헌이 있지만, 이것은 당황합니다. 기능 선택은 버릴 기능을 식별하는 것입니다. 직관적으로, 일부 기능을 버리는 것은 자멸적인 …

1
카이 제곱 테스트는 어떤 기능 선택을 사용할 수 있습니까?
여기에서는 다른 사람들이지도 학습에서 기능 선택 wrt 결과에 카이 제곱 테스트를 사용하기 위해 일반적으로 수행하는 작업에 대해 묻고 있습니다. 올바르게 이해하면 각 기능과 결과 사이의 독립성을 테스트하고 각 기능에 대한 테스트 사이의 p 값을 비교합니까? 에서 http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Pearson의 카이 제곱 검정은 범주화 된 데이터 세트에 적용되는 통계 테스트로 , …

6
비지도 학습에서 기능 선택을 수행하는 R 또는 Python의 메소드 [닫기]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . R / Python에서 데이터에서 중요하지 않은 / 중요한 기능을 삭제 / 선택할 수있는 방법 / 구현 방법은 무엇입니까? 내 데이터에는 라벨이 없습니다 (감독되지 …

2
분류 문제에서 클래스 분리 성 측정
선형 판별 학습자에서 클래스 분리 성을 측정하는 좋은 예는 Fisher의 선형 판별 비율입니다. 기능 세트가 대상 변수 사이에 클래스를 잘 분리 할 수 ​​있는지 판별하기위한 다른 유용한 지표가 있습니까? 특히, 대상 클래스 분리를 ​​최대화하기위한 우수한 다변량 입력 속성을 찾는 데 관심이 있으며, 비선형 / 비모수 적 측정을 통해 분리 성이 …

1
이상 감지를위한 자동 기능 선택
이상 감지를위한 기능을 자동으로 선택하는 가장 좋은 방법은 무엇입니까? 어떤 중요한 것은 출력입니다 : 나는 일반적으로 기능이 인간의 전문가들에 의해 선택 알고리즘으로 변형 탐지 치료 범위 너무도 많은 기능을 당신은 - ( "이상 출력 이상 입력"에서와 같이) 할 수 있습니다 결합하여 훨씬 작은 부분 집합을 마련 특징. 그러나 일반적으로 기능 …

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
LASSO는 공선 예측 변수 중에서 어떻게 선택합니까?
GLM LASSO 모델이 상관 관계가 높은 그룹 중에서 특정 예측 변수를 선택하는 이유와 최상의 하위 집합 기능 선택과 다르게 예측하는 이유에 대한 직관적 인 답변을 찾고 있습니다. 1996 년 Tibshirani의 그림 2에 표시된 LASSO의 구조에서 LASSO 가 더 큰 분산을 갖는 예측 변수를 선택한다고 믿었습니다. 이제 로지스틱 회귀 모델에 대해 …

2
소프트 임계 값 대 올가미 벌점
지금까지 고차원 데이터 세트를 사용하여 불이익을받은 다변량 분석에서 이해 한 내용을 요약하려고하지만 소프트 임계 값 대 Lasso (또는 ) 불이익에 대한 적절한 정의를 얻는 데 어려움을 겪고 있습니다.L1L1L_1 보다 정확하게는, 희소 한 PLS 회귀 분석을 사용하여 게놈 데이터 ( 단일 뉴클레오티드 다형성 , 우리는 수치 변수로 간주되는 {0,1,2} 범위의 작은 …

3
단계적 회귀의 장점은 무엇입니까?
나는 문제에 대한 접근 방식의 다양성을 위해 단계적 회귀를 실험하고 있습니다. 그래서 두 가지 질문이 있습니다. 단계적 회귀의 장점은 무엇입니까? 구체적인 강점은 무엇입니까? 단계적 회귀를 사용하여 피처를 선택한 다음 선택한 모든 피처를 함께 가져 오는 규칙적인 회귀를 적용하는 하이브리드 접근 방식에 대해 어떻게 생각하십니까?


2
기능 선택에만 LASSO 사용
기계 학습 수업에서 LASSO 회귀 분석이 정규화를 사용하기 때문에 기능 선택을 수행하는 방법에 대해 매우 잘 .l1l1l_1 내 질문 : 사람들은 일반적으로 기능 선택을 수행하기 위해 LASSO 모델을 사용합니까 (그리고 다른 기계 학습 모델에 해당 기능을 덤프하도록 진행합니까) 아니면 일반적으로 기능 선택과 실제 회귀를 모두 수행하기 위해 LASSO를 사용합니까? 예를 …

3
로지스틱 회귀 분석의 순위 기능
로지스틱 회귀를 사용했습니다. 6 가지 기능이 있는데이 분류기의 다른 기능보다 결과에 더 많은 영향을 미치는 중요한 기능을 알고 싶습니다. Information Gain을 사용했지만 사용 된 분류 기준에 의존하지 않는 것 같습니다. 로지스틱 회귀와 같은 특정 분류 기준에 따라 중요도에 따라 기능의 순위를 매기는 방법이 있습니까? 도움을 주시면 감사하겠습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.