프로그램 작성 scikit-learn

3

Python-정확히 sklearn.pipeline.Pipeline은 무엇입니까?

sklearn.pipeline.Pipeline정확히 어떻게 작동하는지 알 수 없습니다 . 문서에 몇 가지 설명이 있습니다 . 예를 들어 다음과 같은 의미가 있습니다. 최종 추정기를 사용한 변환 파이프 라인. 내 질문을 더 명확하게하기 위해 무엇 steps입니까? 어떻게 작동합니까? 편집하다 답변 덕분에 내 질문을 더 명확하게 만들 수 있습니다. 파이프 라인을 호출하고 단계적으로 두 개의 …

118 python machine-learning scikit-learn neuraxle

13

sklearn에서 가져 오는 중 ImportError : 이름 check_build를 가져올 수 없습니다.

sklearn에서 가져 오는 동안 다음 오류가 발생합니다. >>> from sklearn import svm Traceback (most recent call last): File "<pyshell#17>", line 1, in <module> from sklearn import svm File "C:\Python27\lib\site-packages\sklearn\__init__.py", line 16, in <module> from . import check_build ImportError: cannot import name check_build python 2.7, scipy-0.12.0b1 superpack, numpy-1.6.0 superpack, scikit-learn-0.11을 사용하고 …

117 python numpy scipy scikit-learn

8

1d 배열이 예상되었을 때 열 벡터 y가 전달되었습니다.

나는 맞게 필요 RandomForestRegressor에서 sklearn.ensemble. forest = ensemble.RandomForestRegressor(**RF_tuned_parameters) model = forest.fit(train_fold, train_y) yhat = model.predict(test_fold) 이 코드는 데이터를 전처리 할 때까지 항상 작동했습니다 ( train_y). 오류 메시지는 다음과 같습니다. DataConversionWarning : 1d 배열이 예상되었을 때 열 벡터 y가 전달되었습니다. 예를 들어 ravel ()을 사용하여 y의 모양을 (n_samples,)로 변경하십시오. 모델 = …

117 python pandas numpy scikit-learn

2

scikit-learn의 class_weight 매개 변수는 어떻게 작동합니까?

class_weightscikit-learn의 Logistic Regression의 매개 변수가 어떻게 작동하는지 이해하는 데 많은 문제 가 있습니다. 그 상황 로지스틱 회귀를 사용하여 매우 불균형 한 데이터 세트에서 이진 분류를 수행하고 싶습니다. 등급은 0 (음성) 및 1 (양성)으로 표시되며 관찰 된 데이터의 비율은 약 19 : 1이며 대부분의 샘플은 음성 결과를 나타냅니다. 첫 번째 시도 …

116 python scikit-learn

7

sklearn에서 'transform'과 'fit_transform'의 차이점은 무엇입니까

sklearn - 파이썬 도구 상자에서 두 가지 기능이 있습니다 transform및 fit_transform약 sklearn.decomposition.RandomizedPCA. 두 가지 기능에 대한 설명은 다음과 같습니다. 그러나 그들 사이의 차이점은 무엇입니까?

115 python python-2.7 scikit-learn

5

Pandas 데이터 프레임으로 OLS 회귀 실행

나는이 pandas데이터 프레임을 내가 여기에 열 B와 C의 값에서 열 A의 값을 예측할 수에 싶습니다 장난감 예입니다 : import pandas as pd df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]}) 이상적으로는 다음과 같은 ols(A ~ B + C, data = df)것이 있지만 …

111 python pandas scikit-learn regression statsmodels

4

scikit Learn을 사용하여 다중 클래스 케이스에 대한 정밀도, 재현율, 정확도 및 f1 점수를 계산하는 방법은 무엇입니까?

나는 데이터가 다음과 같은 감정 분석 문제에서 일하고 있습니다. label instances 5 1190 4 838 3 239 1 204 2 127 그래서 내 데이터는 1190 instances이 5. scikit의 SVC를 사용하는 Im 분류의 경우 . 문제는 다중 클래스 케이스에 대한 정밀도, 재현율, 정확도 및 f1 점수를 정확하게 계산하기 위해 데이터의 균형을 …

109 python machine-learning nlp artificial-intelligence scikit-learn

22

Scikit-learn 데이터 세트를 Pandas 데이터 세트로 변환하는 방법은 무엇입니까?

Scikit-learn Bunch 객체의 데이터를 Pandas DataFrame으로 어떻게 변환합니까? from sklearn.datasets import load_iris import pandas as pd data = load_iris() print(type(data)) data1 = pd. # Is there a Pandas method to accomplish this?

107 dataset scikit-learn pandas

8

누구든지 StandardScaler를 설명 할 수 있습니까?

나는 이해할 수 없습니까 페이지 의을 StandardScaler의 문서에 sklearn. 누구든지 이것을 간단한 용어로 설명 할 수 있습니까?

103 python machine-learning scikit-learn scaling standardized

10

sklearn : LinearRegression.fit ()을 호출 할 때 샘플 수가 일치하지 않는 배열을 찾았습니다.

단순한 선형 회귀를 시도했지만 다음과 같은 오류로 당황합니다. regr = LinearRegression() regr.fit(df2.iloc[1:1000, 5].values, df2.iloc[1:1000, 2].values) 다음을 생성합니다. ValueError: Found arrays with inconsistent numbers of samples: [ 1 999] 이러한 선택은 동일한 차원을 가져야하며 배열이 numpy 여야합니다. 그래서 무엇을 놓치고 있습니까?

102 scikit-learn

7

설치된 nltk, scikit learn 버전을 확인하는 방법은 무엇입니까?

쉘 스크립트에서이 패키지가 설치되었는지 여부를 확인하고 있습니다. 설치되지 않은 경우 설치합니다. 따라서 쉘 스크립트를 사용하여 : import nltk echo nltk.__version__ 하지만 import라인 에서 쉘 스크립트를 중지 합니다. 리눅스 터미널에서 다음과 같은 방식으로 보려고했습니다. which nltk 설치되었다고 생각하지 않습니다. 쉘 스크립트에서이 패키지 설치를 확인하는 다른 방법이 있습니까 (설치되지 않은 경우 설치).

102 python linux shell scikit-learn nltk

3

Scikit 학습의 RandomForestClassifier 대 ExtraTreesClassifier

누구든지 scikit에서 RandomForestClassifier와 ExtraTreesClassifier의 차이점을 설명 할 수 있습니까? 나는 논문을 읽는 데 상당한 시간을 보냈다. P. Geurts, D. Ernst. 및 L. Wehenkel, "매우 무작위 트리", 기계 학습, 63 (1), 3-42, 2006 ET의 차이점은 다음과 같습니다. 1) 분할에서 변수를 선택할 때 훈련 세트의 부트 스트랩 샘플 대신 전체 훈련 세트에서 …

94 scikit-learn random-forest

5

"train_test_split"메소드의 매개 변수 "stratify"(scikit Learn)

train_test_split패키지 scikit Learn에서 사용하려고 하는데 parameter에 문제가 있습니다 stratify. 다음은 코드입니다. from sklearn import cross_validation, datasets X = iris.data[:,:2] y = iris.target cross_validation.train_test_split(X,y,stratify=y) 그러나 다음과 같은 문제가 계속 발생합니다. raise TypeError("Invalid parameters passed: %s" % str(options)) TypeError: Invalid parameters passed: {'stratify': array([0, 0, 0, 0, 0, 0, 0, 0, 0, …

94 split scikit-learn training-data test-data

11

ImportError : model_selection이라는 모듈이 없습니다.

train_test_split함수 를 사용 하고 작성 하려고합니다 . from sklearn.model_selection import train_test_split 그리고 이것은 ImportError: No module named model_selection 왜? 그리고 극복하는 방법?

89 python scikit-learn

7

scikit-learn에서 계층화 된 기차 / 테스트 분할

데이터를 훈련 세트 (75 %)와 테스트 세트 (25 %)로 분할해야합니다. 현재 아래 코드를 사용하여 수행합니다. X, Xt, userInfo, userInfo_train = sklearn.cross_validation.train_test_split(X, userInfo) 그러나 훈련 데이터 세트를 계층화하고 싶습니다. 어떻게하나요? 나는 StratifiedKFold방법을 조사해 왔지만 75 % / 25 % 분할을 지정하지 않고 훈련 데이터 세트 만 계층화하도록합니다.

88 python scikit-learn

«scikit-learn» 태그된 질문