«scikit-learn» 태그된 질문

scikit-learn은 머신 러닝에 중점을 둔 데이터 분석 및 데이터 마이닝을위한 간단하고 효율적인 도구를 제공하는 Python 용 머신 러닝 라이브러리입니다. 누구나 액세스 할 수 있으며 다양한 상황에서 재사용 할 수 있습니다. NumPy 및 SciPy를 기반으로합니다. 이 프로젝트는 오픈 소스이며 상업적으로 사용할 수 있습니다 (BSD 라이선스).

3
Python-정확히 sklearn.pipeline.Pipeline은 무엇입니까?
sklearn.pipeline.Pipeline정확히 어떻게 작동하는지 알 수 없습니다 . 문서에 몇 가지 설명이 있습니다 . 예를 들어 다음과 같은 의미가 있습니다. 최종 추정기를 사용한 변환 파이프 라인. 내 질문을 더 명확하게하기 위해 무엇 steps입니까? 어떻게 작동합니까? 편집하다 답변 덕분에 내 질문을 더 명확하게 만들 수 있습니다. 파이프 라인을 호출하고 단계적으로 두 개의 …

13
sklearn에서 가져 오는 중 ImportError : 이름 check_build를 가져올 수 없습니다.
sklearn에서 가져 오는 동안 다음 오류가 발생합니다. >>> from sklearn import svm Traceback (most recent call last): File "<pyshell#17>", line 1, in <module> from sklearn import svm File "C:\Python27\lib\site-packages\sklearn\__init__.py", line 16, in <module> from . import check_build ImportError: cannot import name check_build python 2.7, scipy-0.12.0b1 superpack, numpy-1.6.0 superpack, scikit-learn-0.11을 사용하고 …

8
1d 배열이 예상되었을 때 열 벡터 y가 전달되었습니다.
나는 맞게 필요 RandomForestRegressor에서 sklearn.ensemble. forest = ensemble.RandomForestRegressor(**RF_tuned_parameters) model = forest.fit(train_fold, train_y) yhat = model.predict(test_fold) 이 코드는 데이터를 전처리 할 때까지 항상 작동했습니다 ( train_y). 오류 메시지는 다음과 같습니다. DataConversionWarning : 1d 배열이 예상되었을 때 열 벡터 y가 전달되었습니다. 예를 들어 ravel ()을 사용하여 y의 모양을 (n_samples,)로 변경하십시오. 모델 = …

2
scikit-learn의 class_weight 매개 변수는 어떻게 작동합니까?
class_weightscikit-learn의 Logistic Regression의 매개 변수가 어떻게 작동하는지 이해하는 데 많은 문제 가 있습니다. 그 상황 로지스틱 회귀를 사용하여 매우 불균형 한 데이터 세트에서 이진 분류를 수행하고 싶습니다. 등급은 0 (음성) 및 1 (양성)으로 표시되며 관찰 된 데이터의 비율은 약 19 : 1이며 대부분의 샘플은 음성 결과를 나타냅니다. 첫 번째 시도 …



4
scikit Learn을 사용하여 다중 클래스 케이스에 대한 정밀도, 재현율, 정확도 및 f1 점수를 계산하는 방법은 무엇입니까?
나는 데이터가 다음과 같은 감정 분석 문제에서 일하고 있습니다. label instances 5 1190 4 838 3 239 1 204 2 127 그래서 내 데이터는 1190 instances이 5. scikit의 SVC를 사용하는 Im 분류의 경우 . 문제는 다중 클래스 케이스에 대한 정밀도, 재현율, 정확도 및 f1 점수를 정확하게 계산하기 위해 데이터의 균형을 …



10
sklearn : LinearRegression.fit ()을 호출 할 때 샘플 수가 일치하지 않는 배열을 찾았습니다.
단순한 선형 회귀를 시도했지만 다음과 같은 오류로 당황합니다. regr = LinearRegression() regr.fit(df2.iloc[1:1000, 5].values, df2.iloc[1:1000, 2].values) 다음을 생성합니다. ValueError: Found arrays with inconsistent numbers of samples: [ 1 999] 이러한 선택은 동일한 차원을 가져야하며 배열이 numpy 여야합니다. 그래서 무엇을 놓치고 있습니까?
102 scikit-learn 

7
설치된 nltk, scikit learn 버전을 확인하는 방법은 무엇입니까?
쉘 스크립트에서이 패키지가 설치되었는지 여부를 확인하고 있습니다. 설치되지 않은 경우 설치합니다. 따라서 쉘 스크립트를 사용하여 : import nltk echo nltk.__version__ 하지만 import라인 에서 쉘 스크립트를 중지 합니다. 리눅스 터미널에서 다음과 같은 방식으로 보려고했습니다. which nltk 설치되었다고 생각하지 않습니다. 쉘 스크립트에서이 패키지 설치를 확인하는 다른 방법이 있습니까 (설치되지 않은 경우 설치).

3
Scikit 학습의 RandomForestClassifier 대 ExtraTreesClassifier
누구든지 scikit에서 RandomForestClassifier와 ExtraTreesClassifier의 차이점을 설명 할 수 있습니까? 나는 논문을 읽는 데 상당한 시간을 보냈다. P. Geurts, D. Ernst. 및 L. Wehenkel, "매우 무작위 트리", 기계 학습, 63 (1), 3-42, 2006 ET의 차이점은 다음과 같습니다. 1) 분할에서 변수를 선택할 때 훈련 세트의 부트 스트랩 샘플 대신 전체 훈련 세트에서 …

5
"train_test_split"메소드의 매개 변수 "stratify"(scikit Learn)
train_test_split패키지 scikit Learn에서 사용하려고 하는데 parameter에 문제가 있습니다 stratify. 다음은 코드입니다. from sklearn import cross_validation, datasets X = iris.data[:,:2] y = iris.target cross_validation.train_test_split(X,y,stratify=y) 그러나 다음과 같은 문제가 계속 발생합니다. raise TypeError("Invalid parameters passed: %s" % str(options)) TypeError: Invalid parameters passed: {'stratify': array([0, 0, 0, 0, 0, 0, 0, 0, 0, …


7
scikit-learn에서 계층화 된 기차 / 테스트 분할
데이터를 훈련 세트 (75 %)와 테스트 세트 (25 %)로 분할해야합니다. 현재 아래 코드를 사용하여 수행합니다. X, Xt, userInfo, userInfo_train = sklearn.cross_validation.train_test_split(X, userInfo) 그러나 훈련 데이터 세트를 계층화하고 싶습니다. 어떻게하나요? 나는 StratifiedKFold방법을 조사해 왔지만 75 % / 25 % 분할을 지정하지 않고 훈련 데이터 세트 만 계층화하도록합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.