«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

1
"통계 학습 요소"에서 표 18.1 재생
통계 학습 요소의 표 18.1은 14 개의 클래스 데이터 세트에서 여러 분류기의 성능을 요약합니다. 이러한 다중 클래스 분류 문제에 대해 새로운 알고리즘을 올가미 및 탄성 그물과 비교하고 있습니다. 사용 glmnet버전 1.5.3 (R 2.13.0) I 포인트 제합니다 (재현 할 아니다 에 사용 된 유전자의 수 (269) 및 테스트 오차 것으로보고 테이블에 …

1
GBM 패키지와 GBM을 사용하는 Caret
을 사용하여 모델 튜닝을 수행 caret했지만 gbm패키지를 사용하여 모델을 다시 실행했습니다 . caret패키지가 사용 gbm하고 출력이 동일해야한다는 것을 이해합니다 . 그러나 data(iris)RMSE와 R ^ 2를 평가 지표로 사용하면 약 5 %의 모델에서 불일치가 발생합니다. 부분 종속성 플롯을 사용 하기 위해 최적의 모델 성능을 찾고 caret싶지만 다시 실행 하고 싶습니다 gbm. …

3
회귀에 대한 제한된 Boltzmann 기계?
RBM 에 대해 이전에 질문 한 내용을 추적하고 있습니다. 나는 그것들을 설명하는 많은 문헌을 보았지만 실제로 회귀에 대해 이야기하지는 않았다 (라벨 데이터로 분류조차하지 않음). 레이블이없는 데이터에만 사용된다는 느낌이 들었습니다. 회귀 처리를위한 리소스가 있습니까? 아니면 숨겨진 레이어 위에 다른 레이어를 추가하고 CD 알고리즘을 위아래로 실행하는 것만 큼 간단합니까? 미리 감사드립니다.

2
로지스틱 회귀 분석은 언제 적합합니까?
나는 현재 분류를 수행하는 방법을 스스로 가르치고 있으며, 특히 벡터 머신, 신경망 및 로지스틱 회귀를 지원하는 세 가지 방법을 찾고 있습니다. 내가 이해하려고하는 것은 로지스틱 회귀가 다른 두 가지보다 더 나은 성능을 보이는 이유입니다. 로지스틱 회귀에 대한 이해에서 로지스틱 함수를 전체 데이터에 맞추는 것이 아이디어입니다. 따라서 내 데이터가 이진 인 …

2
왜 단어 대신 텍스트 언어 식별에 n-gram이 사용됩니까?
널리 사용되는 두 가지 언어 식별 라이브러리 인 C ++ 용 Compact Language Detector 2와 Java 용 언어 탐지기 에서 둘 다 (문자 기반) n-gram을 사용하여 텍스트 기능을 추출했습니다. 단어 백 (한 단어 / 사전)이 사용되지 않는 이유는 무엇입니까? 단어 백과 n- 그램의 장점과 단점은 무엇입니까? 또한 텍스트 분류에서 n-grams …

2
Fisher 기준 가중치를 계산하는 방법은 무엇입니까?
패턴 인식과 기계 학습을 공부하고 있는데 다음 질문에 부딪 쳤습니다. 동일한 사전 등급 확률 클래스 분류 문제를 고려하십시오.P(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} 그리고 각 클래스에서 인스턴스의 분포는 p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 …

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
분류를 위해 HMM을 교육하려면 어떻게해야합니까?
따라서 분류를 위해 HMM을 훈련시킬 때 표준 접근법은 다음과 같습니다. 데이터 세트를 각 클래스의 데이터 세트로 분리하십시오. 수업 당 하나의 HMM 훈련 테스트 세트에서 각 모델의 가능성을 비교하여 각 창을 분류하십시오. 그러나 각 수업에서 HMM을 어떻게 훈련합니까? 한 클래스와 관련된 데이터를 함께 연결합니까? 그러나 시계열 데이터는 순차적이 아닙니다. 그렇게하면 일부 …

3
Naive Bayes에는 확률이 있습니다. 단어를 두 번 세어야합니까?
내 Naive Bayes bag o 'words 모델을 프로토 타이핑하고 있으며, 기능 확률 계산에 대한 질문이있었습니다. 두 가지 클래스가 있다고 가정 해 봅시다. 모든 사람들이 사용하는 스팸이기 때문에 스팸과 스팸 아님을 사용합니다. 그리고 "viagra"라는 단어를 예로 들어 봅시다. 트레이닝 세트에 10 개의 이메일, 5 개의 스팸 및 5 개의 비 스팸이 …

2
기능 수를 늘리면 성능이 저하되는 이유는 무엇입니까?
기능 수를 늘리면 성능이 저하 될 수있는 이유에 대한 직관을 얻으려고합니다. 현재 LDA 분류기를 사용하고 있습니다.이 기능은 특정 기능 사이에서 이변 형이 더 우수하지만 더 많은 기능을 볼 때 더 나쁩니다. 분류 정확도는 계층화 된 10 배 xval을 사용하여 수행됩니다. 분류자가이 높은 차원에서 일어나고있는 것에 대한 물리적 또는 공간적 직관을 …


2
PCA 및 임의 포리스트
최근의 Kaggle 경쟁을 위해, 나는 (수동으로) 내 훈련 세트에 대해 10 개의 추가 기능을 정의했으며,이 기능은 임의의 숲 분류기를 훈련시키는 데 사용됩니다. 새로운 기능으로 데이터 세트에서 PCA를 실행하여 서로 비교하는 방법을 확인하기로 결정했습니다. 분산의 ~ 98 %가 첫 번째 성분 (첫 번째 고유 벡터)에 의해 전달됨을 발견했습니다. 그런 다음 분류기를 …


1
스파 스 훈련 세트가 SVM에 부정적인 영향을 줍니까?
SVM을 사용하여 메시지를 다른 범주로 분류하려고합니다. 훈련 세트에서 원하는 단어 / 기호 목록을 작성했습니다. 메시지를 나타내는 각 벡터에 1대해 단어가 존재하면 해당 행을 설정합니다 . "corpus"는 다음과 같습니다. [mary, little, lamb, star, twinkle] 첫 번째 메시지 : "메리에게 작은 양이있었습니다"-> [1 1 0 0] 두 번째 메시지 : "twinkle little …

2
DDoS 필터링을위한 머신 러닝 적용
에서 스탠포드의 기계 학습 코스 앤드류 응은 IT에 ML을 적용 언급했다. 얼마 후 우리 사이트에서 적당한 크기 (약 20k 봇)의 DDoS를 얻었을 때 나는 간단한 신경망 분류기를 사용하여 그것에 맞서 싸우기로 결정했습니다. 나는이 파이썬 스크립트를 약 30 분 안에 작성했습니다 : https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos 그것은 pyBrain을 사용 하고 3 개의 nginx 로그를 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.