통계 및 빅 데이터 classification

1

통계 학습 요소의 표 18.1은 14 개의 클래스 데이터 세트에서 여러 분류기의 성능을 요약합니다. 이러한 다중 클래스 분류 문제에 대해 새로운 알고리즘을 올가미 및 탄성 그물과 비교하고 있습니다. 사용 glmnet버전 1.5.3 (R 2.13.0) I 포인트 제합니다 (재현 할 아니다 에 사용 된 유전자의 수 (269) 및 테스트 오차 것으로보고 테이블에 …

13 classification lasso glmnet

1

GBM 패키지와 GBM을 사용하는 Caret

을 사용하여 모델 튜닝을 수행 caret했지만 gbm패키지를 사용하여 모델을 다시 실행했습니다 . caret패키지가 사용 gbm하고 출력이 동일해야한다는 것을 이해합니다 . 그러나 data(iris)RMSE와 R ^ 2를 평가 지표로 사용하면 약 5 %의 모델에서 불일치가 발생합니다. 부분 종속성 플롯을 사용 하기 위해 최적의 모델 성능을 찾고 caret싶지만 다시 실행 하고 싶습니다 gbm. …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

3

회귀에 대한 제한된 Boltzmann 기계?

RBM 에 대해 이전에 질문 한 내용을 추적하고 있습니다. 나는 그것들을 설명하는 많은 문헌을 보았지만 실제로 회귀에 대해 이야기하지는 않았다 (라벨 데이터로 분류조차하지 않음). 레이블이없는 데이터에만 사용된다는 느낌이 들었습니다. 회귀 처리를위한 리소스가 있습니까? 아니면 숨겨진 레이어 위에 다른 레이어를 추가하고 CD 알고리즘을 위아래로 실행하는 것만 큼 간단합니까? 미리 감사드립니다.

13 regression machine-learning classification neural-networks

2

로지스틱 회귀 분석은 언제 적합합니까?

나는 현재 분류를 수행하는 방법을 스스로 가르치고 있으며, 특히 벡터 머신, 신경망 및 로지스틱 회귀를 지원하는 세 가지 방법을 찾고 있습니다. 내가 이해하려고하는 것은 로지스틱 회귀가 다른 두 가지보다 더 나은 성능을 보이는 이유입니다. 로지스틱 회귀에 대한 이해에서 로지스틱 함수를 전체 데이터에 맞추는 것이 아이디어입니다. 따라서 내 데이터가 이진 인 …

12 regression machine-learning logistic classification regression-strategies

2

왜 단어 대신 텍스트 언어 식별에 n-gram이 사용됩니까?

널리 사용되는 두 가지 언어 식별 라이브러리 인 C ++ 용 Compact Language Detector 2와 Java 용 언어 탐지기 에서 둘 다 (문자 기반) n-gram을 사용하여 텍스트 기능을 추출했습니다. 단어 백 (한 단어 / 사전)이 사용되지 않는 이유는 무엇입니까? 단어 백과 n- 그램의 장점과 단점은 무엇입니까? 또한 텍스트 분류에서 n-grams …

12 machine-learning classification text-mining natural-language

2

Fisher 기준 가중치를 계산하는 방법은 무엇입니까?

패턴 인식과 기계 학습을 공부하고 있는데 다음 질문에 부딪 쳤습니다. 동일한 사전 등급 확률 클래스 분류 문제를 고려하십시오.P(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} 그리고 각 클래스에서 인스턴스의 분포는 p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 …

12 machine-learning self-study classification discriminant-analysis

5

매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?

데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

분류를 위해 HMM을 교육하려면 어떻게해야합니까?

따라서 분류를 위해 HMM을 훈련시킬 때 표준 접근법은 다음과 같습니다. 데이터 세트를 각 클래스의 데이터 세트로 분리하십시오. 수업 당 하나의 HMM 훈련 테스트 세트에서 각 모델의 가능성을 비교하여 각 창을 분류하십시오. 그러나 각 수업에서 HMM을 어떻게 훈련합니까? 한 클래스와 관련된 데이터를 함께 연결합니까? 그러나 시계열 데이터는 순차적이 아닙니다. 그렇게하면 일부 …

12 classification hidden-markov-model

3

Naive Bayes에는 확률이 있습니다. 단어를 두 번 세어야합니까?

내 Naive Bayes bag o 'words 모델을 프로토 타이핑하고 있으며, 기능 확률 계산에 대한 질문이있었습니다. 두 가지 클래스가 있다고 가정 해 봅시다. 모든 사람들이 사용하는 스팸이기 때문에 스팸과 스팸 아님을 사용합니다. 그리고 "viagra"라는 단어를 예로 들어 봅시다. 트레이닝 세트에 10 개의 이메일, 5 개의 스팸 및 5 개의 비 스팸이 …

12 classification conditional-probability naive-bayes

2

기능 수를 늘리면 성능이 저하되는 이유는 무엇입니까?

기능 수를 늘리면 성능이 저하 될 수있는 이유에 대한 직관을 얻으려고합니다. 현재 LDA 분류기를 사용하고 있습니다.이 기능은 특정 기능 사이에서 이변 형이 더 우수하지만 더 많은 기능을 볼 때 더 나쁩니다. 분류 정확도는 계층화 된 10 배 xval을 사용하여 수행됩니다. 분류자가이 높은 차원에서 일어나고있는 것에 대한 물리적 또는 공간적 직관을 …

12 classification feature-selection

1

서포트 벡터 수와 특징 수 사이의 관계

주어진 데이터 세트에 대해 SVM을 실행하고 다음 관찰을 수행했습니다. 분류기를 작성하기위한 기능 수를 변경하면 결과 지원 벡터 수도 변경됩니다. 이런 종류의 시나리오를 설명하는 방법을 알고 싶습니다.

12 machine-learning classification svm kernel-trick

2

PCA 및 임의 포리스트

최근의 Kaggle 경쟁을 위해, 나는 (수동으로) 내 훈련 세트에 대해 10 개의 추가 기능을 정의했으며,이 기능은 임의의 숲 분류기를 훈련시키는 데 사용됩니다. 새로운 기능으로 데이터 세트에서 PCA를 실행하여 서로 비교하는 방법을 확인하기로 결정했습니다. 분산의 ~ 98 %가 첫 번째 성분 (첫 번째 고유 벡터)에 의해 전달됨을 발견했습니다. 그런 다음 분류기를 …

12 classification pca random-forest

2

선형 판별 분석 및 베이 즈 규칙 : 분류

선형 판별 분석과 베이 즈 규칙의 관계는 무엇입니까? 그룹 분산 내 및 그룹 분산 간 비율을 최소화하려고 시도하여 LDA가 분류에 사용된다는 것을 이해하지만 Bayes 규칙이 어떻게 사용되는지 알 수 없습니다.

12 classification discriminant-analysis bayes

1

스파 스 훈련 세트가 SVM에 부정적인 영향을 줍니까?

SVM을 사용하여 메시지를 다른 범주로 분류하려고합니다. 훈련 세트에서 원하는 단어 / 기호 목록을 작성했습니다. 메시지를 나타내는 각 벡터에 1대해 단어가 존재하면 해당 행을 설정합니다 . "corpus"는 다음과 같습니다. [mary, little, lamb, star, twinkle] 첫 번째 메시지 : "메리에게 작은 양이있었습니다"-> [1 1 0 0] 두 번째 메시지 : "twinkle little …

12 classification svm sparse

2

DDoS 필터링을위한 머신 러닝 적용

에서 스탠포드의 기계 학습 코스 앤드류 응은 IT에 ML을 적용 언급했다. 얼마 후 우리 사이트에서 적당한 크기 (약 20k 봇)의 DDoS를 얻었을 때 나는 간단한 신경망 분류기를 사용하여 그것에 맞서 싸우기로 결정했습니다. 나는이 파이썬 스크립트를 약 30 분 안에 작성했습니다 : https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos 그것은 pyBrain을 사용 하고 3 개의 nginx 로그를 …

12 classification neural-networks unsupervised-learning

«classification» 태그된 질문