«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

3
희소 예측 변수 및 반응을 사용하는 CART와 유사한 방법에 사용할 수있는 라이브러리가 있습니까?
R의 gbm 패키지를 사용하여 일부 큰 데이터 세트로 작업하고 있습니다. 예측 변수 행렬과 응답 벡터가 매우 희박합니다 (즉, 대부분의 항목이 0 임). 나는 여기 에서했던 것처럼이 sparseness를 이용하는 알고리즘을 사용하여 의사 결정 트리를 구축하기를 바랐다 . 이 백서에서와 같이 대부분의 항목에는 가능한 많은 기능 중 일부만 있으므로 데이터가 명시 적으로 …

1
비 순차 범주 형 예측 변수의 수준 수 감소
SVM, 임의 포리스트 또는 다른 분류기를 말하는 분류기를 훈련시키고 싶습니다. 데이터 세트의 기능 중 하나는 1000 수준의 범주 형 변수입니다. 이 변수의 레벨 수를 줄이는 가장 좋은 방법은 무엇입니까? R에는 드문 수준을 결합 combine.levels()하는 Hmisc 패키지 에서 호출되는 기능이 있지만 다른 제안을 찾고있었습니다.

2
오디오 분류를위한 컨볼 루션 깊은 믿음 네트워크를 이해하는 방법?
"에서 계층 적 표현의 확장 성 자율 학습을위한 길쌈 깊은 믿음 네트워크 Lee 등으로". al. ( PDF ) Convolutional DBN이 제안되었습니다. 또한이 방법은 이미지 분류에 대해 평가됩니다. 작은 모서리와 가장자리 등과 같은 자연스러운 로컬 이미지 기능이 있으므로 논리적으로 들립니다. " Convolutional Deep Faith Networks를 이용한 오디오 분류를위한 비 감독 기능 …


1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
문자열 패턴 학습을위한 기계 학습 기술
다른 자체 정의 범주에 속하는 단어 목록이 있습니다. 각 범주에는 고유 한 패턴이 있습니다 (예를 들어, 하나는 특수 문자로 고정 길이를 가지며 다른 하나는이 범주에서 "단어"등으로 나타나는 문자가 존재 함). 예를 들면 다음과 같습니다. "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" …

3
정밀도와 리콜을 조정할 수있는 분류기
나는 거짓 긍정을 갖지 않는 것이 훨씬 더 중요한 이진 분류 문제를 연구하고 있습니다. 많은 거짓 부정이 괜찮습니다. 예를 들어 sklearn에서 많은 분류기를 사용했지만 그중 어느 것도 정밀 리콜 트레이드 오프를 명시 적으로 조정할 수있는 능력이 없다고 생각합니다 (그들은 꽤 좋은 결과를 얻지 만 조정할 수는 없습니다). 조정 가능한 정밀도 …

2
의사 결정 트리를 갖춘 이유는 무엇입니까?
분류 작업 및 특히 Adaboost에 대한 부스팅 알고리즘에 대해 조금 읽었습니다. Adaboost의 목적은 여러 "약한 학습자"를 대상으로하고 훈련 데이터에 대한 일련의 반복을 통해 분류자를 밀어 모델 (들)이 반복적으로 실수를 저지르는 클래스를 예측하는 법을 배우도록하는 것입니다. 그러나 내가 한 많은 독서가 왜 의사 결정 트리를 약한 분류기로 사용했는지 궁금합니다. 특별한 이유가 …

3
정밀 회수 곡선에 적합한 AUC는 무엇입니까?
매우 불균형 한 데이터 집합 (9 % 긍정적 결과)이 있기 때문에 ROC 곡선보다 정밀 회수 곡선이 더 적합하다고 결정했습니다. PR 곡선 아래에서 면적의 비슷한 요약 측정 값을 얻었지만 (관심이 있다면 .49) 해석 방법을 잘 모르겠습니다. 0.8 이상이 ROC에 대한 좋은 AUC라고 들었습니다.하지만 정밀 리콜 곡선에 대한 AUC의 일반 컷오프는 동일합니까?

1
Jeffries Matusita의 장점
내가 읽는 일부 논문에 따르면 Jeffries와 Matusita 거리가 일반적으로 사용됩니다. 그러나 아래 공식을 제외하고는 그것에 대한 많은 정보를 찾을 수 없었습니다. JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} 제곱근을 제외하고 유클리드 거리와 유사합니다. E (x, y) =∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} JM 거리는 분류 측면에서 유클리드 거리보다 신뢰할 수 있다고 주장됩니다. 왜이 차이가 JM 거리를 향상시키는 지 …

1
희귀 사건을 어떻게 예측합니까?
보험 위험 예측 모델을 개발 중입니다. 이 모델은 항공사 노쇼 예측, 하드웨어 오류 감지 등과 같은 "희귀 이벤트"입니다. 데이터 세트를 준비 할 때 분류를 적용하려고했지만 부정적인 사례가 많기 때문에 유용한 분류기를 얻을 수 없었습니다. . 고등학교 통계 과정 이외의 통계 및 모델링 데이터에 대한 경험이 많지 않아 다소 혼란 스럽습니다. …

1
드문 이벤트 로지스틱 회귀 분석에 대한 컷오프 확률을 선택하는 방법
1000 개의 양성으로 100,000 개의 관측치 (9 개의 더미 표시기 변수)가 있습니다. 이 경우에는 로지스틱 회귀가 잘 작동하지만 컷오프 확률은 당황합니다. 일반적인 문헌에서는 1과 0을 예측하기 위해 50 % 컷오프를 선택합니다. 내 모델의 최대 값이 ~ 1 %이므로이 작업을 수행 할 수 없습니다. 따라서 임계 값은 0.007 또는 그 주위에있을 …

3
첫 번째 주요 컴포넌트는 클래스를 분리하지 않지만 다른 PC는 클래스를 분리합니다. 어떻게 가능합니까?
인스턴스를 두 개의 클래스로 분류하기 위해 감독 기계 학습에 사용되는 더 작은 변수 세트 (주요 구성 요소)를 얻기 위해 17 개의 정량 변수에 대해 PCA를 실행했습니다. PCA 후 PC1은 데이터 분산의 31 %를 차지하고 PC2는 17 %, PC3은 10 %, PC4는 8 %, PC5는 7 %, PC6은 6 %를 차지합니다. …

4
불확실한 클래스 레이블 분류기
클래스 레이블이 연결된 인스턴스 집합이 있다고 가정 해 봅시다. 이러한 인스턴스가 어떻게 표시 되었는지 는 중요하지 않지만 클래스 멤버쉽은 얼마나 확실 합니다. 각 인스턴스는 정확히 하나의 클래스에 속합니다 . 각 클래스 멤버쉽의 확실성을 1에서 3까지의 명목 속성으로 정량화 할 수 있다고 가정합니다 (각각 불확실 함). 그러한 확실성 측정을 고려하는 분류 …

1
랜덤 포레스트 알고리즘 단계의 동기
나는 임의의 숲을 구성하는 잘 알고있어하는 방법은있는 그대로 다음과 같습니다 (에서 http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) 숲에서 나무를 만들려면 다음을 수행하십시오. N 크기의 샘플을 부트 스트랩합니다. 여기서 N은 트레이닝 세트의 크기입니다. 이 부트 스트랩 샘플을이 트리의 학습 세트로 사용하십시오. 트리의 각 노드에서 무작위로 M 피처의 m을 선택하십시오. 분할 할 m 기능 중 최상의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.