«python» 태그된 질문

프로그래밍 언어 Python과 관련된 데이터 과학 질문에 사용합니다. 일반적인 코딩 질문 (-> stackoverflow)을위한 것은 아닙니다.


1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
하이퍼 튜닝 XGBoost 매개 변수
XGBoost는 범주 형 변수와 연속 형 종속 변수를 모두 다루는 데 큰 도움이되었습니다. 그러나 XGBoost 문제에 대해 최적화 된 매개 변수를 어떻게 선택합니까? 이것이 최근 Kaggle 문제에 대한 매개 변수를 적용한 방법입니다. param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, …
27 r  python  xgboost 

3
선형 회귀 분석에서 가중치를 음이 아닌 값으로 만드는 방법
파이썬에서 scikit-learn을 사용하여 표준 선형 회귀를 사용하고 있습니다. 그러나 가중치가 모든 기능 (음수가 아님)에 대해 모두 긍정적이되도록하고 싶습니다. 그것을 달성 할 수있는 방법이 있습니까? 나는 문서를보고 있었지만 그것을 달성 할 수있는 방법을 찾지 못했습니다. 나는 최선의 해결책을 얻지 못할 수도 있음을 이해하지만, 음이 아닌 가중치가 필요합니다.

7
다른 컴퓨터에서 Python 작업 환경을 복제하는 방법?
내 워크 스테이션에서 Python (Anaconda + Flask)을 사용한 기계 학습 모델을 개발했으며 모든 것이 잘 진행됩니다. 나중에이 프로그램을 다른 컴퓨터에 제공하려고했지만 동일한 환경을 설정하려고했지만 프로그램이 실행되지 않습니다. 프로그램을 원활하게 실행되는 다른 컴퓨터로 프로그램을 복사했습니다. 실패한 경우의 문제를 파악할 수 없습니다 (프로그램 코드와 오류 메시지가 풍부하므로 여기에 제시 할 수 없습니다).하지만 …
26 python  anaconda 

1
PyTorch와 Tensorflow Fold
두 PyTorch 및 Tensorflow은 접어 입력 데이터가 균일하지 않은 길이나 크기가 상황입니다 (동적 그래프가 유용하거나 필요하지 않은 상황)을 처리하는 의미 깊은 학습 프레임 워크입니다. 나는 그들이 의존하는 패러다임의 의미 (예 : 동적 배치)와 그 의미, 각각에 구현 할 수없는 것, 약점 / 강점 등을 비교하는 방법을 알고 싶습니다. 이 정보를 …

6
원하는 Facebook 사이트를 기반으로 사용자의 나이를 추정하기위한 기계 학습 기술
Facebook 응용 프로그램의 데이터베이스가 있으며 머신 러닝을 사용하여 Facebook 사이트의 선호도에 따라 사용자의 나이를 추정하려고합니다. 내 데이터베이스에는 세 가지 중요한 특성이 있습니다. 내 훈련 세트의 연령 분포 (총 사용자 수 12k)는 더 젊은 사용자 (예 : 27 세의 1157 명의 사용자와 65 세의 23 명의 사용자)로 비뚤어져 있습니다. 많은 사이트는 …

2
Keras에서 두 가지 모델 병합
두 Keras 모델을 단일 모델로 병합하려고 하는데이 작업을 수행 할 수 없습니다. 예를 들어 첨부 된 그림에서 치수 8 의 중간 레이어 를 가져 와서 모델 B 의 레이어 B 1 (차원 8의 입력)에 대한 입력으로 사용 하고 모델 A 와 모델 B 를 모두 단일 모델.A2A2A2B1B1B1BBBAAABBB 기능 모듈을 사용하여 …

4
pandas.DataFrame.isin을 병렬로 실행하는 간단한 방법이 있습니까?
DataFrame.isin팬더 의 기능을 많이 사용하는 모델링 및 스코어링 프로그램을 사용하여 수천 명의 특정 페이지 각각에 대해 개별 사용자의 페이스 북 "유사한"레코드 목록을 검색합니다. 이는 모델링 또는 스코어링 조각보다 프로그램에서 가장 시간이 많이 걸리는 부분입니다. 단순히 하나의 코어에서만 실행되고 나머지는 수십 개에서 동시에 실행되기 때문입니다. 수동으로 데이터 프레임을 청크로 분할하고 작업을 …

4
명명 된 엔터티 인식을위한 Word2Vec
Google의 word2vec 구현을 사용하여 명명 된 엔티티 인식 시스템을 구축하려고합니다. 구조를 통해 역 전파되는 재귀 신경망은 명명 된 엔티티 인식 작업에 적합하지만 해당 유형의 모델에 대한 적절한 구현 또는 적절한 자습서를 찾을 수는 없습니다. 비정형 코퍼스로 작업하고 있기 때문에 NLTK 및 이와 유사한 도구의 표준 NER 도구는 성능이 매우 떨어지며 …

5
데이터 과학 프로젝트를위한 VM 이미지
데이터 과학 작업에 사용할 수있는 수많은 도구가 있으므로 모든 것을 설치하고 완벽한 시스템을 구축하는 것은 번거 롭습니다. Python, R 및 기타 오픈 소스 데이터 과학 도구가 설치되어 있고 사람들이 즉시 사용할 수있는 Linux / Mac OS 이미지가 있습니까? 최신 버전의 Python, R (IDE 포함) 및 기타 오픈 소스 데이터 시각화 …
24 python  r  tools 

4
Scikit-learn : 로지스틱 회귀뿐만 아니라 SGDClassifier로 예측하기
로지스틱 회귀를 학습하는 방법은 확률 적 그라디언트 디센트 (schakit-learn)가 인터페이스를 제공하는 확률 적 그라디언트 디센트를 사용하는 것입니다. 내가하고 싶은 것은 scikit-learn의 SGDClassifier를 가져 와서 Logistic Regression here 과 동일한 점수를 얻는 것 입니다. 그러나 점수가 동일하지 않기 때문에 일부 기계 학습 향상 기능이 누락되어 있어야합니다. 이것은 내 현재 코드입니다. SGDClassifier에서 …

3
Python 머신 러닝 모델을 저장하는 모범 사례
머신 러닝 모델을 저장, 저장 및 공유하는 모범 사례는 무엇입니까? 파이썬에서는 일반적으로 pickle 또는 joblib을 사용하여 모델의 이진 표현을 저장합니다. 필자의 경우 모델은 ~ 100Mo 크기 일 수 있습니다. 또한 joblib은 설정하지 않는 한 하나의 모델을 여러 파일에 저장할 수 있습니다 compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). 그러나 모델에 대한 액세스 권한을 …

4
클러스터링하기 전에 데이터를 표준화해야합니까?
클러스터 전에 데이터를 표준화해야합니까? 의 예에서 scikit learnDBSCAN에 대한, 여기에 그들은 라인에서이 작업을 수행 : X = StandardScaler().fit_transform(X) 그러나 왜 필요한지 이해하지 못합니다. 결국 클러스터링은 데이터의 특정 분포를 가정하지 않습니다. 감독되지 않은 학습 방법이므로 목표는 데이터를 탐색하는 것입니다. 왜 데이터를 변환해야합니까?

5
파이썬에서 KL 분기 계산
나는 이것에 익숙하지 않으며 이것 뒤에 이론적 개념을 완전히 이해하고 있다고 말할 수 없습니다. 파이썬에서 여러 포인트 목록 사이의 KL 분기를 계산하려고합니다. 이것을 시도하기 위해 http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html 을 사용 하고 있습니다. 내가 겪고있는 문제는 반환 된 값이 두 숫자 목록 (1.3862943611198906)과 동일하다는 것입니다. 나는 여기서 어떤 종류의 이론적 실수를 저지르고 있지만 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.