«scikit-learn» 태그된 질문

Scikit-learn은 기계 학습, 데이터 마이닝 및 데이터 분석을위한 간단하고 효율적인 도구로 구성된 Python 모듈입니다. NumPy, SciPy 및 matplotlib를 기반으로합니다. 3-Clause BSD 라이센스에 따라 배포됩니다.

2
대규모 데이터 세트를위한 효율적인 차원 축소
~ 1M 행과 ~ 500K 스파 스 기능이있는 데이터 세트가 있습니다. 1K-5K 고밀도 피쳐의 순서로 차원을 축소하고 싶습니다. sklearn.decomposition.PCA스파 스 데이터에서 작동하지 않으며 사용하려고 sklearn.decomposition.TruncatedSVD했지만 메모리 오류가 매우 빨리 발생합니다. 이 스케일에서 효율적인 차원 축소를위한 옵션은 무엇입니까?

1
CPU 사용량 및 메모리에 대한 scikit-learn n_jobs 매개 변수
scikit-learn의 대부분 추정기에는를 사용하여 병렬 작업을 작성하기위한 / 메소드에 n_jobs매개 변수가 있습니다. 이 프로세스 를 설정 하면 단 하나의 Python 프로세스 가 생성되고 코어가 최대가되어 CPU 사용량이 2500 %를 초과하는 것으로 나타났습니다 . 이것은 양의 정수> 1로 설정하는 것과는 매우 다르며 ~ 100 % 사용으로 여러 Python 프로세스를 만듭니다.fitpredictjoblib-1 이 …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
그래프 구조화 된 데이터에 Scikit-Learn 레이블 전파를 사용하는 방법은 무엇입니까?
연구의 일환으로 그래프에서 레이블 전파를 수행하는 데 관심이 있습니다. 특히이 두 가지 방법에 관심이 있습니다. Xiaojin Zhu와 Zoubin Ghahramani. 레이블 전파를 통해 레이블이있는 데이터와 레이블이없는 데이터로부터 학습 기술 보고서 ​​CMU-CALD-02-107, 2002 년 카네기 멜론 대학교 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, Bernhard Schoelkopf. 지역 및 글로벌 …

3
해싱 벡터 라이저와 tfidf 벡터 라이저의 차이점은 무엇입니까?
텍스트 문서 모음을 각 문서의 단어 벡터로 변환하고 있습니다. 내가 사용이 시도했습니다 TfidfVectorizer 과 HashingVectorizer을 나는 a 처럼 점수 HashingVectorizer를 고려하지 않는다는 것을 이해합니다 . 내가 아직도 일하고있는 이유 는 here 및 here 설명 된 것처럼 거대한 데이터 세트를 처리하는 동안 제공하는 유연성 때문 입니다. (내 원래 데이터 세트에는 3 …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
24,000 카테고리의 클래스를 인코딩하는 방법은 무엇입니까?
저는 현재 유전체학에 대한 로지스틱 회귀 모델을 연구하고 있습니다. 공변량으로 포함하려는 입력 필드 중 하나는 genes입니다. 약 24,000 개의 알려진 유전자가 있습니다. 전산 생물학에서이 수준의 가변성을 갖는 많은 특징이 있으며 수십만 개의 샘플이 필요합니다. 내가 LabelEncoder()그 24K 유전자 라면 그리고 OneHotEncoder()그들 ... 2.2GHz 쿼드 코어 i7 CPU에서 24,000 개의 컬럼으로 …

3
최고의 통화 시간 예측
캘리포니아의 여러 도시에있는 고객 집합, 각 고객의 통화 시간 및 통화 상태 (고객이 전화에 응답하면 True, 고객이 응답하지 않으면 False)를 포함하는 데이터 집합이 있습니다. 전화를받을 확률이 높을 수 있도록 향후 고객을위한 적절한 전화 시간을 찾아야합니다. 그렇다면이 문제에 가장 적합한 전략은 무엇입니까? 시간 (0,1,2, ... 23)이 클래스 인 분류 문제로 고려해야합니까? …

3
환경 데이터를 기반으로 작물 수확량을 예측하기위한 기계 학습 모델 구축
10 년 동안 농장의 온도, 강수량 및 콩 수확량에 대한 데이터가 포함 된 데이터 세트가 있습니다 (2005-2014). 이 데이터를 바탕으로 2015 년의 수익률을 예측하고 싶습니다. 작물 수확은 작물 재배시기가 끝날 때 발생하기 때문에 데이터 세트에는 온도 및 강수량에 대한 일일 값이 있지만 수확량에 대해 연간 1 개의 값만 있습니다. 지난 …

2
scikit 분류 기준을 분류하는 데 시간이 얼마나 걸립니까?
1 백만 개의 레이블이 지정된 문서로 구성된 모음에서 텍스트 분류를 위해 scikit 선형 지원 벡터 머신 (SVM) 분류기를 사용할 계획입니다. 내가 할 계획은 사용자가 키워드를 입력하면 분류자가 먼저 범주별로 분류 한 다음 해당 범주 범주의 문서 내에서 후속 정보 검색 쿼리가 발생한다는 것입니다. 몇 가지 질문이 있습니다. 분류에 많은 시간이 …

1
멀티 클래스 데이터 세트에서 분류가 잘못되는 불균형 데이터
39 개의 카테고리 / 클래스와 850 만 개의 레코드가있는 텍스트 분류 작업을하고 있습니다. (향후 데이터 및 카테고리가 증가 할 것입니다). 내 데이터의 구조 또는 형식은 다음과 같습니다. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 …

4
기능 중요도의 맥락에서 의사 결정 트리 해석
sklearn으로 작성된 의사 결정 트리 분류 모델의 의사 결정 프로세스를 완전히 이해하는 방법을 이해하려고합니다. 내가보고있는 두 가지 주요 측면은 트리의 그래프 표시와 기능의 중요성 목록입니다. 내가 이해하지 못하는 것은 기능 컨텍스트가 트리의 맥락에서 어떻게 결정되는지입니다. 예를 들어, 다음은 중요한 기능 목록입니다. 기능 순위 : 1. FeatureA (0.300237) FeatureB (0.166800) FeatureC …

3
Scikit-Learn의 Random Forest Regressor에서 가중치 (수식) 내보내기
Python (Random Forest Regressor)의 Scikit Learn을 사용하여 예측 모델을 훈련했으며 수동 예측을위한 Excel 도구를 만들기 위해 각 기능의 가중치를 추출하고 싶습니다. 내가 찾은 유일한 것은 model.feature_importances_도움이되지 않습니다. 그것을 달성 할 수있는 방법이 있습니까? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( …

1
서포트 벡터 머신을위한 기능 선택
내 질문은 세 가지입니다 "Kernelized"지원 벡터 머신과 관련하여 변수 / 기능 선택이 바람직합니다. 특히 과적 합을 방지하기 위해 매개 변수 C를 정규화하고 커널을 SVM에 도입하는 주된 동기는 문제의 차원을 높이는 것입니다. 첫 번째 질문에 대한 답이 "아니오"라면, 어떤 조건에서 답을 명심해야합니까? 파이썬의 scikit-learn 라이브러리에서 SVM의 기능 감소를 가져 오려고 시도한 …

2
차원 축소와 반대되는 방법이 있습니까?
저는 기계 학습 분야에 익숙하지 않지만 신호 처리에 대한 부분을 다했습니다. 이 질문에 잘못 표기된 경우 알려주십시오. 시뮬레이션하기에는 너무 복잡한 비선형 모델 방식으로 적어도 3 개의 변수로 정의 된 2 차원 데이터가 있습니다. PCA 및 ICA와 같은 방법 (python 라이브러리 Scikit-Learn에서)을 사용하여 데이터에서 두 가지 주요 구성 요소를 추출하는 데 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.