«scikit-learn» 태그된 질문

파이썬을위한 머신 러닝 라이브러리. (a) 질문의 중요한 부분 또는 예상 답변으로 scikit-learn을 포함하는 주제에 대해이 태그를 사용하십시오. (b) scikit-learn을 사용하는 방법에 관한 것이 아닙니다.

3
XGBoost vs Python Sklearn 그라디언트 부스트 트리
XGBoost가 어떻게 작동하는지 이해하려고합니다. Python sklearn에서 그라디언트 향상 트리가 어떻게 작동하는지 이미 알고 있습니다. 분명하지 않은 것은 XGBoost가 동일한 방식으로 작동하지만 더 빠르거나 파이썬 구현과 근본적인 차이점이 있는지입니다. 이 논문을 읽을 때 http://learningsys.org/papers/LearningSys_2015_paper_32.pdf XGboost에서 나온 최종 결과가 Python 구현에서와 같은 것처럼 보이지만 주요 차이점은 XGboost가 각 회귀 트리에서 만들 수있는 …

2
scikit의 다중 레이블 분류 지표
scikit을 사용하여 기존 문서에 주제를 할당하기 위해 다중 레이블 분류기를 작성하려고합니다. 나는 통해 전달 내 문서를 처리하고 TfidfVectorizer하여 통해 라벨 MultiLabelBinarizer과를 만들어 OneVsRestClassifier와 SGDClassifier추있다. 그러나 내 분류기를 테스트 할 때 나는 .29 까지의 점수 만 얻습니다.이 점수 는 비슷한 문제에 대해 꽤 낮습니다. 나는 스톱 워드, 유니 그램, 형태소 분석과 …

2
임의의 숲이 과적입니까?
나는 scikit-learn을 사용하여 임의의 숲을 실험하고 있으며 훈련 세트의 결과는 훌륭하지만 테스트 세트에서는 상대적으로 열악한 결과를 얻습니다 ... 내가 해결하려고하는 문제 (포커에서 영감을 얻음)는 다음과 같습니다 .A 플레이어의 홀 카드, B 플레이어의 홀 카드 및 플롭 (3 카드)을 고려할 때 어떤 플레이어가 가장 좋은 핸드를 가지고 있습니까? 수학적으로 이것은 14 …

3
로지스틱 회귀 계수의 표준 오차를 계산하는 방법
파이썬의 scikit-learn을 사용하여 로지스틱 회귀를 훈련하고 테스트합니다. scikit-learn은 독립 변수의 회귀 계수를 반환하지만 계수의 표준 오차는 제공하지 않습니다. 각 계수에 대한 Wald 통계량을 계산하고 이러한 계수를 서로 비교하려면 이러한 표준 오류가 필요합니다. 로지스틱 회귀 계수 ( here ) 의 표준 오차를 계산하는 방법에 대한 설명을 찾았 지만 따르기가 다소 어렵습니다. …

3
파이썬에서 공선 변수를 체계적으로 제거하는 방법은 무엇입니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 지금까지 상관 테이블을보고 특정 임계 값을 초과하는 변수를 제거하여 데이터 준비 프로세스의 일부로 공선 변수를 제거했습니다. 이 작업을 수행하는 데 더 허용되는 방법이 …

3
단순한 최소 제곱 계수를 찾기 위해“정상 방정식”을 사용하지 않는 이유는 무엇입니까?
나는이 목록을보고 여기 와 최소 제곱를 해결하기 위해 많은 방법이 있었다 믿을 수 없었다. Wikipedia 의 "정상 방정식" 은 매우 간단 해 보입니다 : α^β^= y¯− β^엑스¯,= ∑엔나는 = 1( x나는− x¯) ( y나는− y¯)∑엔나는 = 1( x나는− x¯)2α^=와이¯−β^엑스¯,β^=∑나는=1엔(엑스나는−엑스¯)(와이나는−와이¯)∑나는=1엔(엑스나는−엑스¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum …

3
중첩 교차 검증에서 하이퍼 파라미터를 얻는 방법은 무엇입니까?
중첩 교차 유효성 검사에 대한 다음 게시물을 읽었으며 여전히 중첩 교차 유효성 검사를 사용하여 모델 선택과 관련하여 100 % 확실하지 않습니다. 모델 선택을위한 중첩 교차 검증 모델 선택 및 교차 검증 : 올바른 방법 혼란을 설명하기 위해 중첩 교차 검증 방법을 사용하여 모델 선택을 단계별로 살펴 보겠습니다. K-Fold를 사용하여 외부 …

3
멀티 클래스 LDA 교육의 공선 변수
8 클래스 의 데이터 로 다중 클래스 LDA 분류기를 훈련하고 있습니다. 교육을 수행하는 동안 " 변수는 동일 선상에 있습니다 " 라는 경고가 표시됩니다. 90 % 이상의 훈련 정확도를 얻고 있습니다. Python 에서 scikits-learn 라이브러리를 사용 하여 다중 클래스 데이터를 훈련시키고 테스트합니다. 나는 적절한 테스트 정확도도 얻 습니다 (약 85 % …

6
가장 빠른 SVM 구현
더 일반적인 질문입니다. 예측 모델링을 위해 rbf SVM을 실행하고 있습니다. 현재 프로그램에 약간의 속도 향상이 필요하다고 생각합니다. 나는 scikit learn을 거친 그리드 검색 + 교차 유효성 검사와 함께 사용합니다. 각 SVM 실행에는 약 1 분이 걸리지 만 모든 반복 작업으로 인해 여전히 너무 느립니다. 결국 여러 코어에서 교차 유효성 검사 …

2
CalibratedClassifierCV를 사용하여 분류자를 교정하는 올바른 Scikit 방법
Scikit에는 CalibratedClassifierCV 가있어 특정 X, y 쌍에서 모델을 교정 할 수 있습니다. 또한 명확하게data for fitting the classifier and for calibrating it must be disjoint. 그들이 분리되어 있어야한다면, 분류기를 다음과 같이 훈련시키는 것이 합법적인가? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) 나는 동일한 훈련 세트를 사용함으로써 disjoint data규칙을 어 기고 있다는 것을 …

3
statsmodel OLS와 scikit 선형 회귀의 차이점
동일한 작업을 수행하는 다른 라이브러리의 두 가지 다른 방법에 대한 질문이 있습니다. 선형 회귀 모델을 만들려고합니다. 다음은 OLS와 함께 statsmodel 라이브러리를 사용하는 코드입니다. X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared …

7
임의의 숲이 과적 합
scikits-learn에서 Random Forest Regression을 사용하려고합니다. 문제는 테스트 오류가 매우 높다는 것입니다. train MSE, 4.64, test MSE: 252.25. 내 데이터 모양은 다음과 같습니다. (파란색 : 실제 데이터, 초록색 : 예측 됨) : 훈련에 90 %, 시험에 10 %를 사용하고 있습니다. 이것은 여러 매개 변수 조합을 시도한 후 사용중인 코드입니다. rf = …

3
로지스틱 회귀 분석 : Scikit Learn 및 glmnet
R의 패키지를 sklearn사용하여 로지스틱 회귀 라이브러리 의 결과를 복제하려고합니다 glmnet. 로부터 sklearn로지스틱 회귀 문서 , L2 페널티 아래의 비용 함수를 최소화하기 위해 노력하고있다 minw,c12wTw+C∑i=1Nlog(exp(−yi(XTi승 + C))+1)minw,c12wTw+C∑나는=1엔로그⁡(특급⁡(−와이나는(엑스나는티승+씨))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) 로부터 네트 의 glmnet그 구현이 약간 다른 비용 함수를 최소화하는 분β, β0− [ 1엔∑나는 = 1엔와이나는( β0+ …

3
머신 러닝에서 데이터 누락 문제를 해결하는 방법
기계 학습 알고리즘을 사용하여 예측하려는 거의 모든 데이터베이스는 일부 특성에 대해 누락 된 값을 찾습니다. 결 측값이있는 선을 제외하여 특성의 평균값으로 채워질 때 까지이 문제를 해결하는 몇 가지 방법이 있습니다. 기본적으로 종속 변수 (Y)가 누락 된 값을 가진 각 열이 될 수있는 회귀 (또는 다른 방법)를 실행하는 다소 강력한 접근 …

2
"F 회귀"및
피쳐를 F-regression레이블과 개별적으로 상관시키고 값을 관찰하는 것과 동일한 피쳐를 사용하여 피쳐를 비교 합니까?R2R2R^2 나는 종종 동료 F regression들이 다음의 머신 러닝 파이프 라인에서 기능 선택을 위해 사용하는 것을 보았습니다 sklearn. sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` 일부는 말해주십시오-왜 레이블 / 종속 변수와 상관 관계가있는 것과 동일한 결과를 제공합니까? F_regression기능 선택에서 사용하는 이점이 명확하지 않습니다 . …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.