«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리




1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 


4
XGBoost는 다중 공선 성을 자체적으로 처리합니까?
현재 21 개의 기능 (약 150 개의 기능 목록에서 선택)이있는 데이터 세트에서 XGBoost를 사용하고 있으며 ~ 98 개의 기능을 얻기 위해 핫 코드로 코딩했습니다. 이러한 98 가지 기능 중 일부는 예를 들어 중복됩니다. 변수 (기능) 도 및 .에이에이A비에이비에이\frac{B}{A}기음에이기음에이\frac{C}{A} 내 질문은 : 어떻게 ( 만약? ) 의사 결정 트리 핸들 다중 …

3
알 수없는 기능에서 기능 엔지니어링을 수행하는 방법은 무엇입니까?
카글 경쟁에 참여하고 있습니다. 데이터 세트에는 약 100 개의 기능이 있으며 모두 실제로는 무엇을 나타내는 지 알 수 없습니다. 기본적으로 그들은 단지 숫자입니다. 사람들은 이러한 기능에 대해 많은 기능 엔지니어링을 수행하고 있습니다. 정확히 알려지지 않은 기능에 대해 기능 공학을 정확히 수행 할 수있는 방법이 궁금합니다. 알려지지 않은 기능에 대해 기능 …

2
텍스트 분류 : 다른 종류의 기능 결합
내가 다루는 문제는 짧은 텍스트를 여러 클래스로 분류하는 것입니다. 내 현재 접근 방식은 tf-idf 가중 항 주파수를 사용하고 간단한 선형 분류기 (로지스틱 회귀)를 배우는 것입니다. 이것은 합리적으로 잘 작동합니다 (테스트 세트에서 약 90 % 매크로 F-1, 훈련 세트에서 거의 100 %). 큰 문제는 보이지 않는 단어 / n- 그램입니다. 분포 …

4
기능 수와 인스턴스 수에 대한“거짓의 규칙”은 무엇입니까? (소규모 데이터 세트)
기능 수와 관측 수에 대한 휴리스틱이 있는지 궁금합니다. 분명히 많은 피처가 관측치 수와 같으면 모형이 과적 합 될 것입니다. 스파 스 방법 (LASSO, 탄력적 그물)을 사용하여 모델을 줄이기 위해 여러 기능을 제거 할 수 있습니다. 내 질문은 (이론적으로) : 모델 선택을 평가하기 위해 메트릭을 사용 하기 전에 최적 의 피처 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
신경망의 기능을 선택하는 방법은 무엇입니까?
나는이 질문에 대한 명확한 대답이 없다는 것을 알고 있지만 많은 데이터가있는 거대한 신경망이 있고 새로운 기능을 입력에 추가하고 싶다고 가정 해 봅시다. "가장 좋은"방법은 새로운 기능으로 네트워크를 테스트하고 결과를 보는 것이지만 기능이 도움이되지 않는지 테스트하는 방법이 있습니까? 상관 관계 측정 ( http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf ) 등?

5
특징 선택 대 특징 추출. 언제 사용할 것인가?
지형지 물 추출 및 지형지 물 선택은 본질적으로 데이터의 차원을 감소 시키지만, 지형지 물 추출은 또한 내가 옳다면 데이터를 더 분리 가능하게 만듭니다. 어떤 기술이 다른 기술 보다 언제 선호 됩니까? 나는 기능 선택이 원본 데이터와 속성을 수정하지 않기 때문에 훈련하고있는 기능이 변경되지 않아야 할 때 기능 선택을 사용한다고 가정합니다. …

3
신경망 교육을 위해 범주 형 및 연속 입력 기능을 결합하는 방법
범주 형과 연속 형의 두 가지 입력 기능이 있다고 가정합니다. 범주 형 데이터는 원-핫 코드 A로 표현 될 수있는 반면, 연속 데이터는 N- 차원 공간에서 단지 벡터 B이다. A, B는 완전히 다른 종류의 데이터이기 때문에 단순히 concat (A, B)를 사용하는 것은 좋은 선택이 아닌 것 같습니다. 예를 들어, B와 달리 …

4
중요한 속성을 지정하는 방법?
많은 데이터 소스로 구성된 느슨하게 구조화 된 데이터 세트 (예 : 웹 테이블 / 링크 된 공개 데이터)를 가정하십시오. 데이터 뒤에 공통 스키마가 없으며 각 소스는 동의어 속성을 사용하여 값을 설명 할 수 있습니다 (예 : "nationality"vs "bornIn"). 내 목표는 그들이 설명하는 개체를 어떻게 든 "정의"하는 "중요한"속성을 찾는 것입니다. 따라서 …

4
바이어스가 높은 데이터 세트로 트리 앙상블을 훈련 할 때의 의미는 무엇입니까?
나는 매우 바이어스 된 이진 데이터 세트를 가지고 있습니다. 포지티브 클래스보다 네거티브 클래스의 예가 1000 배 더 많습니다. 이 데이터에 대해 Tree Ensemble (Extra Random Trees 또는 Random Forest)을 훈련시키고 싶지만, 긍정적 클래스의 충분한 예를 포함하는 훈련 데이터 세트를 생성하는 것은 어렵습니다. 긍정적 인 예와 부정적인 예의 수를 정규화하기 위해 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.