«scikit-learn» 태그된 질문

Scikit-learn은 기계 학습, 데이터 마이닝 및 데이터 분석을위한 간단하고 효율적인 도구로 구성된 Python 모듈입니다. NumPy, SciPy 및 matplotlib를 기반으로합니다. 3-Clause BSD 라이센스에 따라 배포됩니다.

1
keras로 멀티 클래스 분류에서 문자열 레이블을 처리하는 방법은 무엇입니까?
나는 기계 학습과 keras에 초보자이며 이제 keras를 사용하여 멀티 클래스 이미지 분류 문제를 해결하고 있습니다. 입력은 태그 된 이미지입니다. 사전 처리 후 훈련 데이터는 Python 목록에 다음과 같이 표시됩니다. [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] "dog", "cat"및 "bird"는 클래스 레이블입니다. 이 문제에는 one-hot 인코딩을 사용해야한다고 생각하지만이 문자열 레이블을 처리하는 방법은 명확하지 …

4
거대한 데이터를 위해 파이썬에서 t-sne 구현 속도 향상
200 치수 ( doc2vec)를 가진 거의 백만 개의 벡터에서 차원 축소를하고 싶습니다 . 모듈 TSNE에서 구현을 사용 sklearn.manifold하고 있으며 주요 문제는 시간 복잡성입니다. 로도 method = barnes_hut계산 속도는 여전히 느립니다. 언젠가는 심지어 메모리가 부족합니다. 130G RAM의 48 코어 프로세서에서 실행 중입니다. 병렬로 실행하거나 많은 리소스를 사용하여 프로세스 속도를 높이는 방법이 …

1
텍스트 클러스터링 알고리즘
의미에 따라 많은 양의 문장을 그룹으로 묶는 데 문제가 있습니다. 이것은 문장이 많고 그 의미를 기준으로 그룹화하려는 경우의 문제와 유사합니다. 이를 위해 어떤 알고리즘이 제안됩니까? 나는 미리 많은 수의 클러스터를 알지 못하고 (더 많은 데이터가 나올수록 클러스터가 변경 될 수 있음) 각 문장을 나타내는 데 일반적으로 어떤 기능이 사용됩니까? 이제 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
기계 학습에서 희소 데이터와 밀도가 높은 데이터를 병합하여 성능 향상
나는 예측 가능한 희소 특징을 가지고 있으며, 또한 예측 가능한 조밀 한 특징이 있습니다. 분류기의 전반적인 성능을 향상 시키려면 이러한 기능을 결합해야합니다. 이제는 이들을 함께 결합하려고 할 때 밀도가 높은 기능은 희소 기능보다 더 많이 지배되는 경향이 있으므로 밀도가 높은 기능이있는 모델에 비해 AUC가 1 % 향상됩니다. 누군가 비슷한 문제를 …

2
누락 된 데이터를 처리해야하는 워크 플로우의 위치
매우 큰 데이터베이스 (여기서는 Vertica에서 SQL 및로 ) 에서 가져온 데이터 에서 기계 학습 모델 (내 경우에는 Python pandas및 sklearn패키지 사용) 을 작성하는 워크 플로우를 작성 중이며 pyodbc해당 프로세스의 중요한 단계는 누락 누락을 포함합니다. 예측 변수의 값. 이것은 단일 분석 또는 통계 플랫폼 (Python, R, Stata 등) 내에서 간단하지만 다중 …

6
연속 변수가 거의없는 로그 변환을 수행 한 이유는 무엇입니까?
분류 문제를 겪고 있으며 많은 사람들의 코드와 자습서를 읽었습니다. 내가 발견 한 것은 많은 사람들이 걸릴 것입니다 np.log또는 log연속 같은 변수의 loan_amount또는 applicant_income등 나는 그 이유를 이해하고 싶습니다. 모델 예측 정확도를 향상시키는 데 도움이됩니까? 필수입니까? 또는 그 뒤에 논리가 있습니까? 가능하면 설명을 제공해주세요. 감사합니다.

1
RandomForestClassifier OOB 스코어링 방법
scikit-learn에서 임의 포리스트 구현은 가방 외부 샘플의 일반화 오류를 추정하기 위해 평균 정확도를 스코어링 방법으로 사용합니까? 설명서에는 언급되어 있지 않지만 score () 메서드는 평균 정확도를보고합니다. 불균형이 매우 높은 데이터 집합이 있으며 그리드 검색에서 ROC의 AUC를 점수 측정 기준으로 사용하고 있습니다. 분류 자에게 OOB 샘플에 대해 동일한 스코어링 방법을 사용하도록 지시하는 …

5
문장 유사성 예측
다음과 같은 문제를 해결하려고합니다. 데이터 세트로 문장 세트가 있고 새로운 문장을 입력하고 새로운 문장이 데이터 세트에서 가장 유사한 문장을 찾고 싶습니다. 예를 들면 다음과 같습니다. 새로운 문장 : " I opened a new mailbox" 데이터 세트에 기반한 예측 : Sentence | Similarity A dog ate poop 0% A mailbox is …

2
SelectKBest는 어떻게 작동합니까?
이 자습서를보고 있습니다 : https://www.dataquest.io/mission/75/improving-your-submission 섹션 8에서 최상의 기능을 찾으면 다음 코드가 표시됩니다. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the raw p-values for …

3
팬더 데이터 프레임-DMatrix
scikit learn에서 xgboost를 실행하려고합니다. 그리고 팬더 만 사용하여 데이터를 데이터 프레임에로드합니다. xgboost와 함께 pandas df를 어떻게 사용해야합니까? xgboost algo를 실행하는 데 필요한 DMatrix 루틴이 혼동됩니다.

1
회귀 분석을위한 높은 카디널리티 범주 기능을 사용하여 기능의 중요성 (숫자 고유 변수)
랜덤 포레스트의 기능 중요도를 사용하여 회귀 문제에 대한 경험적 기능 선택을 수행하려고 시도했습니다. 회귀 문제는 모든 기능이 범주 형이며 많은 기능이 많은 수준 (100-1000 정도)입니다. one-hot 인코딩은 각 레벨마다 더미 변수를 생성하므로 각 기능 (컬럼)이 아니라 각 레벨마다 기능 중요도가 중요합니다. 이러한 기능 중요도를 집계하는 좋은 방법은 무엇입니까? 기능의 모든 …

3
Pandas의 범주 형 열을 대량 변환 (원핫 인코딩 아님)
scikit-learn을 사용하여 의사 결정 트리에서 사용할 예정인 수많은 범주 열이있는 팬더 데이터 프레임이 있습니다. 그것들을 숫자 값으로 변환해야합니다 (핫 벡터가 아닌). scikit-learn의 LabelEncoder로 할 수 있습니다. 문제는 너무 많아서 수동으로 변환하고 싶지 않다는 것입니다. 이 프로세스를 자동화하는 쉬운 방법은 무엇입니까?

1
scikit-learn을 사용하여 임의 포리스트에서 기능 중요도를 사용하여 기능 선택
나는 한 scikit 배우기와 임의 숲의 기능 importances를 꾸몄다 . 랜덤 포레스트를 사용한 예측을 향상시키기 위해 플롯 정보를 사용하여 피처를 제거하려면 어떻게해야합니까? 즉, 플롯 정보를 기반으로 기능이 쓸모 없는지 또는 임의의 포리스트 성능이 더 나빠지는지 확인하는 방법은 무엇입니까? 줄거리는 속성을 기반으로 feature_importances_하며 분류자를 사용합니다 sklearn.ensemble.RandomForestClassifier. 기능 선택을위한 다른 기술 이 …

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.