«scikit-learn» 태그된 질문

파이썬을위한 머신 러닝 라이브러리. (a) 질문의 중요한 부분 또는 예상 답변으로 scikit-learn을 포함하는 주제에 대해이 태그를 사용하십시오. (b) scikit-learn을 사용하는 방법에 관한 것이 아닙니다.

R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
Scikit 이항 편차 손실 함수
이것은 scikit GradientBoosting의 이항 이탈 손실 함수입니다. def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * …

희귀 사건을 어떻게 예측합니까?
보험 위험 예측 모델을 개발 중입니다. 이 모델은 항공사 노쇼 예측, 하드웨어 오류 감지 등과 같은 "희귀 이벤트"입니다. 데이터 세트를 준비 할 때 분류를 적용하려고했지만 부정적인 사례가 많기 때문에 유용한 분류기를 얻을 수 없었습니다. . 고등학교 통계 과정 이외의 통계 및 모델링 데이터에 대한 경험이 많지 않아 다소 혼란 스럽습니다. …

파이썬의 주성분 분석 및 회귀
SAS에서 수행 한 일부 작업을 Python으로 재현하는 방법을 찾으려고합니다. 다중 공선 성이 문제가되는 이 데이터 세트를 사용하여 Python에서 주요 구성 요소 분석을 수행하고 싶습니다. scikit-learn 및 statsmodels를 살펴 보았지만 출력을 가져 와서 SAS와 동일한 결과 구조로 변환하는 방법을 모르겠습니다. 우선, SAS를 사용할 때 SAS가 상관 관계 매트릭스에서 PCA를 수행하는 것처럼 …

분류 목적으로 데이터를 테스트하기 위해 PCA 적용
최근에 훌륭한 PCA에 대해 배웠으며 scikit-learn documentation에 요약 된 예를 수행했습니다 . 분류 목적으로 새 데이터 포인트에 PCA를 적용하는 방법을 알고 싶습니다. PCA를 2 차원 평면 (x, y 축)으로 시각화 한 후 한 점은 한 분류가되고 다른 한 분류는 분류 할 수 있도록 데이터 점을 구분하기 위해 선을 그릴 수 …

랜덤 포레스트 확률 론적 예측 대 다수 투표
Scikit은 왜 ( 랜덤 포레스트)에 대한 설명없이 모델 집계 기술에 대한 다수 투표 대신 확률 론적 예측 을 사용 하는 것으로 보입니다 . 이유에 대한 명확한 설명이 있습니까? 또한 Random Forest bagging에 사용될 수있는 다양한 모델 집계 기술에 대한 좋은 논문이나 리뷰 기사가 있습니까? 감사!

다중 클래스 분류에서 Scikit SVM의 출력은 항상 동일한 레이블을 제공합니다
현재 Scikit learn을 다음 코드로 사용하고 있습니다. clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') 그런 다음 7 개의 서로 다른 레이블이있는 일련의 데이터를 적합하게 예측합니다. 이상한 결과가 나왔습니다. 유효성 검사 세트에서 예측 된 레이블을 사용하는 교차 유효성 검사 기술에 관계없이 항상 레이블 7이됩니다. 전체 기본 매개 변수 ()를 포함하여 …

ARIMA 모델의 관측치 48에서 혁신적인 특이 치를 어떻게 통합합니까?
데이터 세트를 작업 중입니다. 일부 모델 식별 기술을 사용한 후 ARIMA (0,2,1) 모델을 만들었습니다. R detectIO의 패키지 TSA에 있는 함수를 사용하여 48 번째 원본 데이터 세트에서 혁신적인 이상치 (IO) 를 감지했습니다 . 이 특이 치를 내 모델에 어떻게 통합하여 예측 목적으로 사용할 수 있습니까? R에서 예측할 수 없기 때문에 ARIMAX …
로지스틱 회귀 문제에 대한 decision_function, predict_proba 및 예측 함수의 차이점은 무엇입니까?
나는 sklearn 문서를 살펴 보았지만 로지스틱 회귀의 맥락에서 이러한 기능의 목적을 이해할 수 없습니다. 들어 decision_function그것이라고 그 초평면과 테스트 인스턴스 사이의 거리. 이 특정 정보는 어떻게 유용합니까? 방법이 어떤 관련이 있습니까 predict및 predict-proba방법?

조정 랜드 지수 대 조정 상호 정보
클러스터링 성능을 평가하려고합니다. 메트릭스 에 대한 skiscit-learn 문서를 읽고있었습니다 . ARI와 AMI의 차이점을 이해하지 못합니다. 그들은 두 가지 다른 방식으로 동일한 일을하는 것 같습니다. 문서에서 인용 : 기본 진리 클래스 할당 labels_true 및 동일한 샘플 labels_pred에 대한 클러스터링 알고리즘 할당에 대한 지식을 감안할 때 조정 된 랜드 인덱스 는 순열을 …

Scikit Learn으로 기능 선택 후 필터링 된 기능 식별
다음은 Python의 기능 선택 방법 에 대한 코드입니다 . from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) 그러나 새로운 X (종속 변수-X_new)를 얻은 후이 새로운 업데이트 된 변수에서 어떤 변수가 …

중첩 교차 검증의 구현
중첩 교차 유효성 검사에 대한 이해가 올바른지 알아 내려고 노력하고 있으므로이 장난감 예제를 작성하여 내가 옳은지 확인했습니다. import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset boston = load_boston() X …

랜덤 포레스트가 MNIST의 2.8 % 테스트 오류보다 훨씬 더 나을 수 있습니까?
나는 MNIST, CIFAR, STL-10 등에 Random Forests를 적용하는 것에 대한 문헌을 찾지 못했기 때문에 순열 불변의 MNIST로 직접 시도 할 것이라고 생각했습니다 . 에서 R , 나는 시도했다 : randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) 2 시간 동안 실행되었으며 2.8 % 테스트 오류가 발생했습니다. 나는 또한 시도 scikit가 배울 와 함께, …

R의 이산 시간 이벤트 기록 (생존) 모델
R에 이산 시간 모델을 맞추려고하지만 어떻게 해야할지 모르겠습니다. 종속 변수를 각 시간 관찰마다 하나씩 다른 행 glm으로 구성하고 logit 또는 cloglog 링크와 함께 함수를 사용할 수 있다는 것을 읽었습니다. 이런 의미에서, 나는 세 개의 열이 있습니다 : ID, Event(각 시간 경과시 1 또는 0) 및 Time Elapsed(관측 시작부터 ) 그리고 …
