통계 및 빅 데이터 scikit-learn

3

내가 이해했듯이 k-NN은 게으른 학습자 알고리즘이며 훈련 단계가 필요하지 않습니다. 그렇다면 왜 .fit()sklearn과 함께 사용해야합니까? 그리고 그것을 사용할 때 어떤 일이 발생합니까?

11 classification scikit-learn k-nearest-neighbour

1

R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?

mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

Scikit 이항 편차 손실 함수

이것은 scikit GradientBoosting의 이항 이탈 손실 함수입니다. def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * …

11 machine-learning scikit-learn boosting loss-functions

1

희귀 사건을 어떻게 예측합니까?

보험 위험 예측 모델을 개발 중입니다. 이 모델은 항공사 노쇼 예측, 하드웨어 오류 감지 등과 같은 "희귀 이벤트"입니다. 데이터 세트를 준비 할 때 분류를 적용하려고했지만 부정적인 사례가 많기 때문에 유용한 분류기를 얻을 수 없었습니다. . 고등학교 통계 과정 이외의 통계 및 모델링 데이터에 대한 경험이 많지 않아 다소 혼란 스럽습니다. …

11 classification predictive-models scikit-learn poisson-process

4

파이썬의 주성분 분석 및 회귀

SAS에서 수행 한 일부 작업을 Python으로 재현하는 방법을 찾으려고합니다. 다중 공선 성이 문제가되는 이 데이터 세트를 사용하여 Python에서 주요 구성 요소 분석을 수행하고 싶습니다. scikit-learn 및 statsmodels를 살펴 보았지만 출력을 가져 와서 SAS와 동일한 결과 구조로 변환하는 방법을 모르겠습니다. 우선, SAS를 사용할 때 SAS가 상관 관계 매트릭스에서 PCA를 수행하는 것처럼 …

11 pca python scikit-learn

2

분류 목적으로 데이터를 테스트하기 위해 PCA 적용

최근에 훌륭한 PCA에 대해 배웠으며 scikit-learn documentation에 요약 된 예를 수행했습니다 . 분류 목적으로 새 데이터 포인트에 PCA를 적용하는 방법을 알고 싶습니다. PCA를 2 차원 평면 (x, y 축)으로 시각화 한 후 한 점은 한 분류가되고 다른 한 분류는 분류 할 수 있도록 데이터 점을 구분하기 위해 선을 그릴 수 …

10 classification pca scikit-learn

1

랜덤 포레스트 확률 론적 예측 대 다수 투표

Scikit은 왜 (1.9.2.1. 랜덤 포레스트)에 대한 설명없이 모델 집계 기술에 대한 다수 투표 대신 확률 론적 예측 을 사용 하는 것으로 보입니다 . 이유에 대한 명확한 설명이 있습니까? 또한 Random Forest bagging에 사용될 수있는 다양한 모델 집계 기술에 대한 좋은 논문이나 리뷰 기사가 있습니까? 감사!

10 random-forest python scikit-learn aggregation bagging

2

다중 클래스 분류에서 Scikit SVM의 출력은 항상 동일한 레이블을 제공합니다

현재 Scikit learn을 다음 코드로 사용하고 있습니다. clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') 그런 다음 7 개의 서로 다른 레이블이있는 일련의 데이터를 적합하게 예측합니다. 이상한 결과가 나왔습니다. 유효성 검사 세트에서 예측 된 레이블을 사용하는 교차 유효성 검사 기술에 관계없이 항상 레이블 7이됩니다. 전체 기본 매개 변수 ()를 포함하여 …

10 svm scikit-learn libsvm multi-class optunity

1

ARIMA 모델의 관측치 48에서 혁신적인 특이 치를 어떻게 통합합니까?

데이터 세트를 작업 중입니다. 일부 모델 식별 기술을 사용한 후 ARIMA (0,2,1) 모델을 만들었습니다. R detectIO의 패키지 TSA에 있는 함수를 사용하여 48 번째 원본 데이터 세트에서 혁신적인 이상치 (IO) 를 감지했습니다 . 이 특이 치를 내 모델에 어떻게 통합하여 예측 목적으로 사용할 수 있습니까? R에서 예측할 수 없기 때문에 ARIMAX …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

로지스틱 회귀 문제에 대한 decision_function, predict_proba 및 예측 함수의 차이점은 무엇입니까?

나는 sklearn 문서를 살펴 보았지만 로지스틱 회귀의 맥락에서 이러한 기능의 목적을 이해할 수 없습니다. 들어 decision_function그것이라고 그 초평면과 테스트 인스턴스 사이의 거리. 이 특정 정보는 어떻게 유용합니까? 방법이 어떤 관련이 있습니까 predict및 predict-proba방법?

10 regression logistic prediction scikit-learn decision

2

조정 랜드 지수 대 조정 상호 정보

클러스터링 성능을 평가하려고합니다. 메트릭스 에 대한 skiscit-learn 문서를 읽고있었습니다 . ARI와 AMI의 차이점을 이해하지 못합니다. 그들은 두 가지 다른 방식으로 동일한 일을하는 것 같습니다. 문서에서 인용 : 기본 진리 클래스 할당 labels_true 및 동일한 샘플 labels_pred에 대한 클러스터링 알고리즘 할당에 대한 지식을 감안할 때 조정 된 랜드 인덱스 는 순열을 …

10 clustering python scikit-learn

3

Scikit Learn으로 기능 선택 후 필터링 된 기능 식별

다음은 Python의 기능 선택 방법 에 대한 코드입니다 . from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) 그러나 새로운 X (종속 변수-X_new)를 얻은 후이 새로운 업데이트 된 변수에서 어떤 변수가 …

10 feature-selection python scikit-learn

2

중첩 교차 검증의 구현

중첩 교차 유효성 검사에 대한 이해가 올바른지 알아 내려고 노력하고 있으므로이 장난감 예제를 작성하여 내가 옳은지 확인했습니다. import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset boston = load_boston() X …

10 cross-validation python scikit-learn

1

랜덤 포레스트가 MNIST의 2.8 % 테스트 오류보다 훨씬 더 나을 수 있습니까?

나는 MNIST, CIFAR, STL-10 등에 Random Forests를 적용하는 것에 대한 문헌을 찾지 못했기 때문에 순열 불변의 MNIST로 직접 시도 할 것이라고 생각했습니다 . 에서 R , 나는 시도했다 : randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) 2 시간 동안 실행되었으며 2.8 % 테스트 오류가 발생했습니다. 나는 또한 시도 scikit가 배울 와 함께, …

10 r machine-learning classification random-forest scikit-learn

4

R의 이산 시간 이벤트 기록 (생존) 모델

R에 이산 시간 모델을 맞추려고하지만 어떻게 해야할지 모르겠습니다. 종속 변수를 각 시간 관찰마다 하나씩 다른 행 glm으로 구성하고 logit 또는 cloglog 링크와 함께 함수를 사용할 수 있다는 것을 읽었습니다. 이런 의미에서, 나는 세 개의 열이 있습니다 : ID, Event(각 시간 경과시 1 또는 0) 및 Time Elapsed(관측 시작부터 ) 그리고 …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

«scikit-learn» 태그된 질문