통계 및 빅 데이터 scikit-learn

1

교차 검증, 학습 곡선 및 최종 평가를 위해 데이터 세트를 분할하는 방법은 무엇입니까?

데이터 세트를 분할하기위한 적절한 전략은 무엇입니까? 나는 다음과 같은 접근 방식에 대한 피드백을 요청 (안 같은 개별 매개 변수에 대한 test_size또는 n_iter,하지만 내가 사용하는 경우 X, y, X_train, y_train, X_test, 그리고 y_test적절하고 순서가 의미가있는 경우) : ( scikit-learn 문서 에서이 예제를 확장 ) 1. 데이터 셋로드 from sklearn.datasets import load_digits …

69 machine-learning cross-validation python scikit-learn

1

Scikit-learn의 One-hot vs Dummy 인코딩

범주 형 변수를 인코딩하는 방법에는 두 가지가 있습니다. 하나의 범주 형 변수에는 n 개의 값이 있습니다. 원핫 인코딩은 이를 n 개의 변수 로 변환하고 더미 인코딩은 이를 n-1 변수 로 변환합니다 . k 개의 범주 형 변수 가있는 경우 각각 n 개의 값을 갖습니다. 하나의 핫 인코딩은 kn 변수로 끝나고 …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

5

SVM 기능 가중치를 어떻게 해석합니까?

선형 SVM을 피팅하여 주어진 가변 가중치를 해석하려고합니다. (나는 scikit-learn 사용하고 있습니다 ) : from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ 설명서에서 이러한 가중치를 계산하거나 해석하는 방법을 구체적으로 나타내는 내용을 찾을 수 없습니다. 체중의 표시는 수업과 관련이 있습니까?

42 svm feature-selection python scikit-learn

2

팬더 / Statsmodel / Scikit-learn

Pandas, Statsmodels 및 Scikit-learn은 기계 학습 / 통계 작업의 다른 구현입니까? 아니면 서로 보완 적인가? 다음 중 가장 포괄적 인 기능이있는 것은 무엇입니까? 어느 것이 적극적으로 개발 및 / 또는 지원됩니까? 로지스틱 회귀를 구현해야합니다. 이 중 어떤 것을 사용해야하는지에 대한 제안이 있습니까?

41 machine-learning python scikit-learn statsmodels pandas

2

로지스틱 회귀 : Scikit Learn 및 Statsmodels

이 두 라이브러리의 로지스틱 회귀 출력에서 다른 결과를 얻는 이유를 이해하려고합니다. 나는 idre UCLA에서 데이터 세트 사용하고 자습서를 예측, admit기반 gre, gpa그리고 rank. rank는 범주 형 변수로 취급되므로 먼저 rank_1삭제 된 더미 변수로 변환됩니다 . 절편 열도 추가됩니다. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + …

31 regression logistic python scikit-learn statsmodels

3

scikit-learn을 사용한 다항식 회귀

다항식 회귀 분석에 scikit-learn을 사용하려고합니다. 다항식 회귀를 읽는 것에서 선형 회귀의 특별한 경우가 있습니다. scikit의 일반 선형 모델 중 하나가 고차 다항식에 맞게 매개 변수화 될 수 있기를 바랐지만 그렇게 할 수있는 옵션이 없습니다. 폴리 커널과 함께 Support Vector Regressor를 사용했습니다. 그것은 내 데이터의 하위 집합과 잘 작동하지만 더 큰 …

29 regression machine-learning large-data polynomial scikit-learn

1

sklearn의 분류 보고서에서 숫자는 무엇을 의미합니까?

sklearn의 sklearn.metrics.classification_report 문서에서 가져온 예가 아래에 있습니다. 내가 이해하지 못하는 것은 클래스가 예측 변수라고 생각되는 각 클래스에 대해 f1 점수, 정밀도 및 리콜 값이있는 이유입니다. f1 점수는 모델의 전체 정확도를 나타냅니다. 또한 지원란에서 무엇을 알려줍니까? 나는 그것에 관한 정보를 찾을 수 없었다. print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class …

29 machine-learning python scikit-learn precision-recall

1

자유도는 정수가 아닌 숫자 일 수 있습니까?

GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

정밀 회수 곡선 (PR- 곡선의 AUC) 및 평균 정밀 (AP) 영역

평균 정밀도 (AP)는 정밀도-회귀 곡선 (PR- 곡선의 AUC) 하의 영역입니까? 편집하다: 다음은 PR AUC와 AP의 차이점에 대한 의견입니다. AUC는 정밀도의 사다리꼴 보간에 의해 얻어진다. 대체적이고 대체로 거의 동등한 메트릭은 info.ap로 반환되는 평균 정밀도 (AP)입니다. 이것은 새로운 양의 샘플이 리콜 될 때마다 얻은 정밀도의 평균입니다. 정밀도가 일정한 세그먼트에 의해 보간되고 TREC에서 …

27 scikit-learn precision-recall auc average-precision

4

scikit-learn (또는 다른 파이썬 프레임 워크)을 사용하여 다른 종류의 회귀 변수 앙상블

회귀 작업을 해결하려고합니다. LassoLARS, SVR 및 Gradient Tree Boosting의 3 가지 모델이 서로 다른 데이터 하위 집합에 잘 작동한다는 것을 알았습니다. 나는이 3 가지 모델을 모두 사용하여 예측을 한 다음 '실제 출력'과 내 3 가지 모델의 출력 테이블을 만들 때마다 적어도 하나의 모델이 실제로 실제 출력에 가깝다는 것을 알았습니다. 비교적 …

27 regression scikit-learn ensemble

2

Python의 scikit-learn LDA가 올바르게 작동하지 않는 이유는 무엇이며 SVD를 통해 LDA를 어떻게 계산합니까?

scikit-learn차원 축소를 위해 기계 학습 라이브러리 (Python) 의 선형 판별 분석 (LDA)을 사용 하고 있었으며 결과에 대해 약간 궁금했습니다. LDA가 무엇을하고 있는지 궁금해서 scikit-learn결과가 예를 들어 수동 접근이나 R에서 수행 된 LDA와 다르게 보일 수 있습니다. 기본적으로 가장 중요한 scikit-plot것은 상관 관계가 있어야하는 두 변수 간의 상관 관계를 보여줍니다. 테스트를 …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

2

Scikit-learn의 평균 절대 백분율 오차 (MAPE) [닫기]

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . Python과 scikit-learn을 사용하여 예측의 평균 절대 백분율 오차 (MAPE)를 어떻게 계산할 수 있습니까? 에서 워드 프로세서 , 우리는 회귀 만이 4 개 미터 …

23 predictive-models python scikit-learn mape

5

과적 합 :은 총알이 없습니까?

올바른 교차 검증 및 모델 선택 절차를 따를 때에도 모델 복잡성, 기간에 제한을 두지 않는 한 모델을 충분히 검색 하지 않으면 과적 합 이 발생 한다는 것을 이해 합니다. 더욱이 사람들은 종종 그들이 제공 할 수있는 보호를 약화시키는 데이터로부터 모델 복잡성에 대한 처벌을 배우려고 시도합니다. 내 질문은 : 위의 진술에 …

21 machine-learning cross-validation goodness-of-fit scikit-learn caret

2

numpy 및 sklearn의 PCA는 다른 결과를 생성합니다

내가 뭔가를 오해하고 있습니까? 이것은 내 코드입니다 sklearn을 사용하여 import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) 산출: array([[ -4.25324997e+03, -8.41288672e-01, …

21 pca python scikit-learn

2

다중 레이블 분류기에서 scikit-learn의 교차 검증 기능을 사용하는 방법

5 개의 클래스가 있고 각 인스턴스가 하나 이상의 클래스에 속할 수있는 데이터 세트에서 다른 분류자를 테스트하고 있으므로 특히 scikit-learn의 다중 레이블 분류기를 사용하고 있습니다 sklearn.multiclass.OneVsRestClassifier. 이제를 사용하여 교차 유효성 검사를 수행하고 싶습니다 sklearn.cross_validation.StratifiedKFold. 다음과 같은 오류가 발생합니다. Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File …

20 cross-validation python multi-class scikit-learn multilabel

«scikit-learn» 태그된 질문