«scikit-learn» 태그된 질문

파이썬을위한 머신 러닝 라이브러리. (a) 질문의 중요한 부분 또는 예상 답변으로 scikit-learn을 포함하는 주제에 대해이 태그를 사용하십시오. (b) scikit-learn을 사용하는 방법에 관한 것이 아닙니다.

2
scikit-learn 부트 스트랩 기능이 테스트 세트를 다시 샘플링하는 이유는 무엇입니까?
모델 평가에 부트 스트랩을 사용할 때 항상 가방 외부 샘플이 테스트 세트로 직접 사용되었다고 생각했습니다. 그러나 이것은 더 이상 사용되지 않는 scikit-learnBootstrap 접근법 의 경우가 아닌 것으로 보입니다. 이것에 대한 통계적 추론은 무엇입니까? 이 기술이 백 오브 샘플을 평가하는 것보다 좋은 특정 시나리오가 있습니까?

2
중첩 교차 검증 사용
Model Selection 의 Scikit Learn 페이지 에는 중첩 교차 검증 사용에 대해 언급되어 있습니다. >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) 두 개의 교차 검증 루프가 병렬로 수행됩니다. 하나는 감마를 설정하기 위해 GridSearchCV 추정기에 의해, 다른 하나는 추정기의 예측 성능을 측정하기 위해 cross_val_score에 의해 다른 것입니다. …

2
로지스틱 회귀 분석에서 결정 임계 값이 하이퍼 파라미터입니까?
(이진) 로지스틱 회귀 분석에서 예측 된 클래스는 모델에 의해 생성 된 클래스 멤버쉽 확률에 대한 임계 값을 사용하여 결정됩니다. 내가 이해하는 것처럼 일반적으로 0.5가 기본적으로 사용됩니다. 그러나 임계 값을 변경하면 예측 분류가 변경됩니다. 임계 값이 하이퍼 파라미터라는 의미입니까? 그렇다면 (예를 들어) scikit-learn의 GridSearchCV방법을 사용하여 임계 값 그리드를 쉽게 검색 할 …

2
KMEANS에서 k의 수를 추정하기 위해 BIC 사용
현재 장난감 데이터 세트 (ofc iris (:))의 BIC를 계산하려고합니다. 여기에 표시된 결과를 재현하려고합니다 (그림 5).이 논문은 BIC 공식의 소스이기도합니다. 나는 이것에 2 가지 문제가있다 : 표기법: ninin_i = 클러스터 의 요소 수iii CiCiC_i = 군집 중심 좌표iii xjxjx_j = 클러스터 할당 된 데이터 포인트iii mmm = 클러스터 수 1) 식에서 …

1
LogisticRegressionCV에서 비 수렴을 수정하는 방법
scikit-learn을 사용하여 일련의 데이터에 대해 교차 검증을 사용하여 로지스틱 회귀 분석을 수행하고 있습니다 (약 7000 개의 정규 관측 값을 갖는 약 14 개의 매개 변수). 또한 1 또는 0 값을 가진 대상 분류 기가 있습니다. 내가 가진 문제는 사용 된 솔버에 관계없이 수렴 경고가 계속 발생한다는 것입니다 ... model1 = …

2
Poisson, Gamma 또는 Tweedie 분포를 오류 분포의 패밀리로 사용하여 Python / scikit-learn에서 GLM을 평가할 수 있습니까?
Python과 Sklearn을 배우려고하지만 Poisson, Gamma 및 특히 Tweedie 제품군의 오류 분포를 사용하는 회귀를 실행해야합니다. 나는 그것들에 관한 문서에서 아무것도 보지 못했지만 R 배포판의 여러 부분에 있기 때문에 누군가 파이썬의 구현을 보았는지 궁금합니다. Tweedie 배포판의 SGD 구현으로 나를 가리킬 수 있다면 매우 시원 할 것입니다!

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
PCA의 Scikit-learn 구현과 TruncatedSVD의 차이점
대수 / 정확한 수준에서 주성분 분석과 특이 값 분해 간의 관계를 이해합니다. 내 질문은 scikit-learn 구현 에 관한 것 입니다. " [TruncatedSVD]는 PCA와 매우 유사하지만 공분산 행렬 대신 샘플 벡터에서 직접 작동합니다. "는 두 방법의 대수적 차이를 반영합니다. " 추정자 [TruncatedSVD]는 두 개의 알고리즘을 지원합니다. 빠른 무작위 SVD 솔버와 ARPACK을 …
12 pca  scikit-learn  svd  scipy 

1
Scikit predict_proba 출력 해석
파이썬에서 scikit-learn 라이브러리를 사용하고 있습니다. 아래 코드에서 확률을 예측하고 있지만 출력을 읽는 방법을 모르겠습니다. 테스트 데이터 from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) 데이터 세트 나누기 X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, random_state=0) 확률 계산 clf = RF() clf.fit(X_train,y_train) …


1
커널 근사에 대한 Nystroem 방법
나는 낮은 순위의 커널 aproximation을위한 Nyström 방법에 대해 읽었습니다. 이 방법은 scikit-learn [1]에서 구현되어 커널 기능 매핑의 낮은 순위에 데이터 샘플을 투사하는 방법으로 사용됩니다. 내가 아는 한, 훈련 세트 과 커널 함수가 주어지면 SVD를 에 적용 하여 커널 매트릭스 의 낮은 순위 근사값을 생성합니다. 및 .{xi}ni=1{xi}i=1n\{x_i\}_{i=1}^nn×nn×nn \times nKKKWWWCCC K=[WK21KT21K22]K=[WK21TK21K22]K = …

1
K를 선택하면 왜 교차 검증 점수가 낮아 집니까?
주변에 재생 보스톤 주택 데이터 집합 와 RandomForestRegressor에 (w / 기본 매개 변수) 나는 이상한 뭔가를 발견, scikit 배우기 : 평균 교차 유효성 검사 점수가 감소 내가 내 교차 검증 전략 등이었다 다음 10 이상으로 주름의 수를 증가로 : cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... …

1
scikit-learn Python의 ElasticNet과 R의 Glmnet의 차이점
ElasticNetPython과 glmnetR의 동일한 데이터 세트 에서 scikit-learn을 사용하여 Elastic Net 모델을 피팅 하면 동일한 산술 결과가 생성 되는지 여부를 확인하려고 한 사람이 있습니까? 나는 두 가지 함수가 인수에 전달하는 기본값이 다르기 때문에 많은 매개 변수 조합을 실험하고 데이터를 스케일링했지만 두 언어간에 동일한 모델을 생성하는 것으로 보이지는 않습니다. 아무도 같은 문제에 …

2
R의 glmnet을 사용한 릿지 회귀와 파이썬의 scikit-learn의 차이점은 무엇입니까?
James, Witten, Hastie, Tibshirani (2013) 의 저서 'R의 통계 학습에 대한 통계 학습 소개' 에서 Ridge Regression / Lasso에 대한 LAB 섹션 §6.6을 살펴 보겠습니다 . 보다 구체적으로, scikit-learn Ridge모델을 R 패키지 'ISLR'의 'Hitters'데이터 세트에 적용하려고합니다 . R 코드에 표시된 것과 동일한 기능 세트를 작성했습니다. 그러나 glmnet()모델 의 결과에 가까이 …

1
카이 제곱 테스트는 어떤 기능 선택을 사용할 수 있습니까?
여기에서는 다른 사람들이지도 학습에서 기능 선택 wrt 결과에 카이 제곱 테스트를 사용하기 위해 일반적으로 수행하는 작업에 대해 묻고 있습니다. 올바르게 이해하면 각 기능과 결과 사이의 독립성을 테스트하고 각 기능에 대한 테스트 사이의 p 값을 비교합니까? 에서 http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Pearson의 카이 제곱 검정은 범주화 된 데이터 세트에 적용되는 통계 테스트로 , …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.