«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리

2
NLP의 분류 프로세스에서 구문 분석 트리에서 일반적으로 사용되는 기능은 무엇입니까?
다른 유형의 구문 분석 트리 구조를 탐색하고 있습니다. 널리 알려진 두 가지 구문 분석 트리 구조는 a) 구성 요소 기반 구문 분석 트리 및 b) 종속성 기반 구문 분석 트리 구조입니다. Stanford NLP 패키지를 사용하여 두 가지 유형의 구문 분석 트리 구조를 모두 사용할 수 있습니다. 그러나 분류 작업에 이러한 …


1
회귀 분석을위한 높은 카디널리티 범주 기능을 사용하여 기능의 중요성 (숫자 고유 변수)
랜덤 포레스트의 기능 중요도를 사용하여 회귀 문제에 대한 경험적 기능 선택을 수행하려고 시도했습니다. 회귀 문제는 모든 기능이 범주 형이며 많은 기능이 많은 수준 (100-1000 정도)입니다. one-hot 인코딩은 각 레벨마다 더미 변수를 생성하므로 각 기능 (컬럼)이 아니라 각 레벨마다 기능 중요도가 중요합니다. 이러한 기능 중요도를 집계하는 좋은 방법은 무엇입니까? 기능의 모든 …

1
scikit-learn을 사용하여 임의 포리스트에서 기능 중요도를 사용하여 기능 선택
나는 한 scikit 배우기와 임의 숲의 기능 importances를 꾸몄다 . 랜덤 포레스트를 사용한 예측을 향상시키기 위해 플롯 정보를 사용하여 피처를 제거하려면 어떻게해야합니까? 즉, 플롯 정보를 기반으로 기능이 쓸모 없는지 또는 임의의 포리스트 성능이 더 나빠지는지 확인하는 방법은 무엇입니까? 줄거리는 속성을 기반으로 feature_importances_하며 분류자를 사용합니다 sklearn.ensemble.RandomForestClassifier. 기능 선택을위한 다른 기술 이 …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
특징 추출 기법-일련의 데이터 요약
나는 종종 시퀀스 인 예측 변수가있는 모델 (분류 또는 회귀)을 작성하고 있으며 모델에 예측 변수로 포함시킬 수있는 최선의 방법으로 변수를 요약하기위한 기술 권장 사항을 찾으려고 노력했습니다. 구체적인 예로, 고객이 향후 90 일 내에 회사를 떠날 것인지 예측하기 위해 모델을 구축한다고 가정합니다 (t와 t + 90 사이, 따라서 이진 결과). 사용 …

4
알고리즘 벤치마킹, 기능 선택, 파라미터 튜닝 중 어느 것이 먼저입니까?
예를 들어 분류를 시도 할 때 현재 나의 접근 방식은 먼저 다양한 알고리즘을 시도하고 벤치마킹하십시오 위의 1에서 최상의 알고리즘에 대한 기능 선택 수행 선택한 기능과 알고리즘을 사용하여 매개 변수를 조정 그러나 다른 알고리즘이 최상의 매개 변수 / 가장 적합한 기능으로 최적화 된 경우 선택한 알고리즘보다 더 나은 알고리즘이있을 수 있음을 …


2
선형 회귀 및 데이터 스케일링
다음 그림은 선형 회귀로 얻은 계수를 보여줍니다 ( mpg목표 변수로, 다른 모든 변수는 예측 변수로). 데이터 를 스케일링하거나 스케일링하지 않은 mtcars 데이터 세트 ( here 및 here )의 경우 : 이 결과를 어떻게 해석합니까? 변수 hp및 disp데이터의 크기가 조절 된 경우에만 중요합니다. 인가 am와 qsec동등하게 중요이거나 am보다 더 중요 qsec? …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


4
기능 선택 및 분류 정확도 관계
분류 자에 대해 사용 가능한 기능의 하위 집합을 선택하는 방법 중 하나는 기준 (예 : 정보 획득)에 따라 해당 기능의 순위를 지정한 다음 분류 자와 순위가 지정된 기능의 하위 집합을 사용하여 정확도를 계산하는 것입니다. 당신의 특징은 예를 들어, A, B, C, D, E그들은 다음과 같이 평가하는 경우, 그리고 D,B,C,E,A, 당신은 …


3
GPS 좌표 (위도 및 경도)를 선형 모델의 피쳐로 사용할 수 있습니까?
많은 기능 중에서 GPS 좌표 (위도 및 경도)를 포함하는 데이터 세트가 있습니다. 이 데이터 세트를 사용하여 다음과 같은 문제를 탐색하고 싶습니다. (1) ETA를 계산하여 시작 지점과 끝 지점 사이를 이동합니다. 및 (2) 특정 지점에 대한 범죄의 양을 추정. 선형 회귀 모델을 사용하고 싶습니다. 그러나 이러한 GPS 좌표를 선형 모델에서 직접 …

2
데이터를 테스트 할 때 교육 데이터보다 기능이 적을 경우 어떻게해야합니까?
상점 판매를 예측하고 있으며 교육 데이터에는 두 가지 기능이 있습니다. 날짜가있는 상점 판매에 대한 정보 ( "Store"필드는 고유하지 않습니다) 상점 유형에 대한 하나 ( "Store"필드는 여기에서 고유합니다) 따라서 행렬은 다음과 같습니다. +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday | +-------+-----------+------------+---------+-----------+------+-------+--------------+ …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.