«scikit-learn» 태그된 질문

Scikit-learn은 기계 학습, 데이터 마이닝 및 데이터 분석을위한 간단하고 효율적인 도구로 구성된 Python 모듈입니다. NumPy, SciPy 및 matplotlib를 기반으로합니다. 3-Clause BSD 라이센스에 따라 배포됩니다.

8
scikit_learn 모델에서 fit과 fit_transform의 차이점은 무엇입니까?
저는 데이터 과학 에 익숙 하지 않으며 scikit-learn의 방법 fit과 차이점을 이해하지 못합니다 fit_transform. 왜 우리가 왜 데이터를 변환해야하는지 설명 할 수 있습니까? 훈련 데이터에 모델을 맞추고 테스트 데이터로 변환하는 것은 무엇을 의미합니까? 예를 들어 범주 형 변수를 학습에서 숫자로 변환하고 데이터를 테스트하기 위해 새 기능 세트를 변환하는 것을 의미합니까?

3
One Hot Encoding vs LabelEncoder vs DictVectorizor를 언제 사용해야합니까?
나는 한동안 범주 형 데이터로 모델을 구축 해 왔으며이 상황에서 기본적으로 모델을 만들기 전에이 데이터를 변환하기 위해 scikit-learn의 LabelEncoder 함수를 기본적으로 사용합니다. 나는 사이의 차이 이해 OHE, LabelEncoder그리고 DictVectorizor그들이 데이터에 무엇을하고 있는지의 관점에서,하지만 다른 통해 하나 개의 기술을 사용하도록 선택할 수 있습니다 때 나에게 명확하지 않습니다 것입니다. 어떤 알고리즘이 다른 …

11
scikit learn을 사용하는 SVM은 끝없이 실행되며 실행을 완료하지 않습니다
595605 개의 행과 5 개의 열 (기능)이있는 교육 데이터 세트와 397070 개의 행이있는 테스트 데이터 세트에서 scikit learn (python)을 사용하여 SVR을 실행하려고합니다. 데이터는 사전 처리되어 정규화되었습니다. 테스트 예제를 성공적으로 실행할 수는 있지만 내 데이터 세트를 사용하여 실행하고 1 시간 이상 동안 실행할 수 있지만 여전히 프로그램의 출력 또는 종료를 볼 …

6
의사 결정 트리 / 임의의 포리스트에있는 기능인 문자열
의사 결정 트리 / 임의의 응용 프로그램에서 일부 문제가 있습니다. 숫자와 문자열 (예 : 국가 이름)을 기능으로 갖는 문제를 해결하려고합니다. 이제 라이브러리 scikit-learn 은 숫자를 매개 변수로 사용하지만 문자열을 주입하고 많은 지식을 가지고 싶습니다. 그러한 시나리오를 어떻게 처리합니까? 파이썬의 해싱과 같은 메커니즘으로 문자열을 숫자로 변환 할 수 있습니다. 그러나 의사 …



1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
MultiOutputClassifier의 predict_proba 이해
scikit-learn 웹 사이트 에서이 예제 를 따라 임의 포리스트 모델로 다중 출력 분류를 수행합니다. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y = np.vstack((y1, y2)).T …

3
선형 회귀 분석에서 가중치를 음이 아닌 값으로 만드는 방법
파이썬에서 scikit-learn을 사용하여 표준 선형 회귀를 사용하고 있습니다. 그러나 가중치가 모든 기능 (음수가 아님)에 대해 모두 긍정적이되도록하고 싶습니다. 그것을 달성 할 수있는 방법이 있습니까? 나는 문서를보고 있었지만 그것을 달성 할 수있는 방법을 찾지 못했습니다. 나는 최선의 해결책을 얻지 못할 수도 있음을 이해하지만, 음이 아닌 가중치가 필요합니다.

4
Scikit-learn : 로지스틱 회귀뿐만 아니라 SGDClassifier로 예측하기
로지스틱 회귀를 학습하는 방법은 확률 적 그라디언트 디센트 (schakit-learn)가 인터페이스를 제공하는 확률 적 그라디언트 디센트를 사용하는 것입니다. 내가하고 싶은 것은 scikit-learn의 SGDClassifier를 가져 와서 Logistic Regression here 과 동일한 점수를 얻는 것 입니다. 그러나 점수가 동일하지 않기 때문에 일부 기계 학습 향상 기능이 누락되어 있어야합니다. 이것은 내 현재 코드입니다. SGDClassifier에서 …

5
파이썬에서 KL 분기 계산
나는 이것에 익숙하지 않으며 이것 뒤에 이론적 개념을 완전히 이해하고 있다고 말할 수 없습니다. 파이썬에서 여러 포인트 목록 사이의 KL 분기를 계산하려고합니다. 이것을 시도하기 위해 http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html 을 사용 하고 있습니다. 내가 겪고있는 문제는 반환 된 값이 두 숫자 목록 (1.3862943611198906)과 동일하다는 것입니다. 나는 여기서 어떤 종류의 이론적 실수를 저지르고 있지만 …

2
train_test_split () 오류 : 샘플 수가 일치하지 않는 입력 변수를 찾았습니다.
Python에 익숙하지 않지만 일부 분류 데이터를 기반으로 첫 번째 RF 모델을 작성합니다. 모든 레이블을 int64 숫자 데이터로 변환하고 numpy 배열로 X 및 Y에로드했지만 모델을 훈련하려고 할 때 오류가 발생했습니다. 내 배열은 다음과 같습니다. >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, …

3
데이터 분할 전후의 StandardScaler
사용 StandardScaler에 대해 읽을 때 대부분의 권장 사항은 데이터를 기차 / 테스트로 나누기 StandardScaler 전에 사용해야한다고 말 했지만 온라인으로 게시 된 코드 중 일부 (sklearn을 사용하여)를 확인했을 때 두 가지 주요 용도가있었습니다. 1- StandardScaler모든 데이터를 사용 합니다. 예 : from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_fit = sc.fit(X) X_std …


2
Scikit-learn에서 SVC와 LinearSVC의 차이점을 설명 할 수 있습니까?
나는 최근에 일하는 법을 배우기 시작 sklearn했고이 독특한 결과 를 보았습니다 . 나는 사용 digits가능 데이터 세트 sklearn다른 모델 및 추정 방법을 시도 할 수 있습니다. 데이터에서 Support Vector Machine 모델을 테스트 할 때 sklearnSVM 분류 에 대해 두 가지 다른 클래스가 있음을 발견했습니다 . SVC그리고 LinearSVC전자는 일대일 접근 방식을 …
19 svm  scikit-learn 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.