«scikit-learn» 태그된 질문

scikit-learn은 머신 러닝에 중점을 둔 데이터 분석 및 데이터 마이닝을위한 간단하고 효율적인 도구를 제공하는 Python 용 머신 러닝 라이브러리입니다. 누구나 액세스 할 수 있으며 다양한 상황에서 재사용 할 수 있습니다. NumPy 및 SciPy를 기반으로합니다. 이 프로젝트는 오픈 소스이며 상업적으로 사용할 수 있습니다 (BSD 라이선스).

20
scikit-learn에서 여러 열의 레이블 인코딩
scikit-learn LabelEncoder을 사용하여 팬더 DataFrame문자열 문자열 을 인코딩 하려고합니다 . 데이터 프레임에 많은 (50+) 열 LabelEncoder이 있으므로 각 열에 대한 개체를 만드는 것을 피하고 싶습니다 . 차라리 모든 데이터 열에서 LabelEncoder작동하는 하나의 큰 객체가 있습니다 . 전체 DataFrame를 던지면 LabelEncoder아래 오류가 발생합니다. 여기에서 더미 데이터를 사용하고 있음을 명심하십시오. 실제로 약 …


6
scikit-learn에서 분류자를 디스크에 저장
훈련 된 Naive Bayes 분류기 를 디스크에 저장하고 이를 사용하여 데이터 를 예측하는 방법은 무엇입니까? scikit-learn 웹 사이트의 다음 샘플 프로그램이 있습니다. from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % (iris.target != …

15
ImportError : sklearn.cross_validation이라는 모듈이 없습니다.
우분투 14.04에서 Python 2.7을 사용하고 있습니다. 다음 명령으로 scikit-learn, numpy 및 matplotlib를 설치했습니다. sudo apt-get install build-essential python-dev python-numpy \ python-numpy-dev python-scipy libatlas-dev g++ python-matplotlib \ ipython 그러나이 패키지를 가져올 때 : from sklearn.cross_validation import train_test_split 이 오류를 반환합니다. ImportError: No module named sklearn.cross_validation 내가 해야하는 것?





10
RuntimeWarning : numpy.dtype 크기가 변경되었습니다. 이진 비 호환성을 나타낼 수 있습니다
저장된 SVM 모델을로드하려고하면이 오류가 발생합니다. sklearn, NumPy 및 SciPy를 제거하고 최신 버전을 모두 다시 설치하려고 시도했습니다 (pip 사용). 여전히이 오류가 발생합니다. 왜? In [1]: import sklearn; print sklearn.__version__ 0.18.1 In [3]: import numpy; print numpy.__version__ 1.11.2 In [5]: import scipy; print scipy.__version__ 0.18.1 In [7]: import pandas; print pandas.__version__ 0.19.1 …

6
Scikit의 임의 상태 (의사 난수)
scikit learn에서 기계 학습 알고리즘을 구현하고 싶지만이 매개 변수의 기능을 이해하지 못 random_state합니까? 왜 사용해야합니까? 또한 의사 난수 (Pseudo-random) 숫자가 무엇인지 이해할 수 없었습니다.

5
데이터를 3 세트 (트레인, 검증 및 테스트)로 나누는 방법은 무엇입니까?
팬더 데이터 프레임이 있으며 3 개의 별도 세트로 나누고 싶습니다. train_test_split from 을 사용 sklearn.cross_validation하면 데이터를 두 세트 (트레인 및 테스트)로 나눌 수 있습니다. 그러나 데이터를 세 세트로 나누는 방법에 대한 해결책을 찾지 못했습니다. 바람직하게는 원본 데이터의 색인을 갖고 싶습니다. 해결 방법은 train_test_split두 번 사용 하고 어떻게 든 색인을 조정하는 …

6
sklearn으로 확장 가능한 팬더 데이터 프레임 열
혼합 유형 열이있는 팬더 데이터 프레임이 있으며 일부 열에 sklearn의 min_max_scaler를 적용하고 싶습니다. 이상적으로는 이러한 변형을 제자리에서 수행하고 싶지만 아직 그렇게 할 방법을 찾지 못했습니다. 작동하는 다음 코드를 작성했습니다. import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']}) min_max_scaler = …

13
sklearn 오류 ValueError : 입력에 NaN, 무한대 또는 dtype ( 'float64')에 비해 너무 큰 값이 있습니다.
sklearn을 사용하고 있으며 선호도 전파에 문제가 있습니다. 입력 행렬을 구축했는데 다음과 같은 오류가 계속 발생합니다. ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). 나는 달렸다 np.isnan(mat.any()) #and gets False np.isfinite(mat.all()) #and gets True 나는 사용해 보았다 mat[np.isfinite(mat) == True] = 0 무한 값을 제거했지만 이것도 작동하지 …

3
하나의 핫 인코딩이 기계 학습 성능을 향상시키는 이유는 무엇입니까?
One Hot 인코딩이 특정 데이터 세트 (매트릭스)에 사용되고 학습 알고리즘의 학습 데이터로 사용될 때 원래 행렬 자체를 학습 데이터로 사용하는 것과 비교하여 예측 정확도와 관련하여 훨씬 더 나은 결과를 제공합니다. 이 성능 향상은 어떻게 이루어 집니까?

6
RandomForestClassifier의 feature_importances는 어떻게 결정됩니까?
데이터 입력으로 시계열이있는 분류 작업이 있는데 각 속성 (n = 23)은 특정 시점을 나타냅니다. 절대 분류 결과 외에도 어떤 속성 / 날짜가 결과에 어느 정도 기여하는지 알아 내고 싶습니다. 따라서 나는 단지 feature_importances_나를 사용하고 있습니다. 그러나 계산 방법과 사용되는 측정 / 알고리즘을 알고 싶습니다. 불행히도이 주제에 관한 문서를 찾을 수 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.