«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

2
SVM 최적 C 및 감마 매개 변수를 결정하기위한 검색 범위는 무엇입니까?
분류에 SVM을 사용하고 있으며 선형 및 RBF 커널에 대한 최적의 매개 변수를 결정하려고합니다. 선형 커널의 경우 교차 유효성 검사 매개 변수 선택을 사용하여 C를 결정하고 RBF 커널의 경우 그리드 검색을 사용하여 C와 감마를 결정합니다. 나는 20 개의 (숫자) 기능과 70 개의 교육 예제가 있으며 7 개의 클래스로 분류되어야합니다. C 및 …

3
Naive Bayes는 어떻게 선형 분류기입니까?
나는 다른 스레드 를 보았지만 대답이 실제 질문을 만족시키지 않았다고 생각합니다. 내가 계속 읽은 것은 Naive Bayes가 로그 확률 데모를 사용하여 선형 분류 자 ​​(예 : here ) (선형 결정 경계를 그립니다)라는 것입니다. 그러나 두 개의 가우시안 구름을 시뮬레이션하고 결정 경계를 설정하고 결과를 얻었습니다 (naiveBayes ()를 사용하여 r의 라이브러리 e1071) …

2
R의 랜덤 포레스트 분류에서 예측 변수 세트의 상대적 중요성
randomForestR의 분류 모델에 대한 변수 집합의 상대적인 중요성을 결정하고 싶습니다 .이 importance함수는 MeanDecreaseGini각 개별 예측 변수에 대한 메트릭을 제공합니다 . 집합의 각 예측 변수를 합산하는 것만 큼 간단합니까? 예를 들면 다음과 같습니다. # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) …


3
클래스 불균형 문제의 근본 원인은 무엇입니까?
나는 최근 기계 / 통계학 학습에서 "클래스 불균형 문제"에 대해 많은 생각을하고 있었고, 무슨 일이 일어나고 있는지 이해하지 못하는 느낌에 더 깊이 빠져들고 있습니다. 먼저 용어를 정의 (또는 정의)하려고합니다. 클래스 불균형 문제 기계 / 통계적 학습 1 등급 0 등급의 비율이 매우 기울어 진 경우 일부 분류 (*) 알고리즘이 잘 …

3
멀티 클래스 분류기의 품질을 결정하는 방법
주어진 모든 인스턴스 정확히 하나의 클래스 속하는 클래스 와 함께 인스턴스 를 가진 데이터 세트xixix_iNNNxixix_iyiyiy_i 멀티 클래스 분류기 훈련 및 테스트 후 기본적으로 테스트 세트의 모든 인스턴스 에 대해 실제 클래스 및 예상 클래스 가있는 테이블이 있습니다. 따라서 모든 인스턴스에 대해 일치하는 ( ) 또는 누락 된 ( ) 있습니다.yiyiy_iaiaia_ixixix_iyi=aiyi=aiy_i= …

7
통계의 분기는 무엇입니까?
수학에는 대수, 분석, 토폴로지 등과 같은 분기가 있습니다. 기계 학습에는 감독, 비지도 및 강화 학습이 있습니다. 이러한 각 브랜치에는 방법을 더 세분화하는 더 미세한 브랜치가 있습니다. 통계와 평행을 그리는 데 문제가 있습니다. 통계 (및 하위 분기)의 주요 분기는 무엇입니까? 완벽한 파티션은 가능하지 않지만 큰 빈 맵보다 더 좋습니다. 시각적 예 …

4
교육 데이터 세트에서 수업의 균형을 언제 조정해야합니까?
나는 온라인 교육 과정을 통해 훈련 데이터의 불균형 수업이 문제를 일으킬 수 있다는 점을 배웠다. 불균형이 너무 클 경우 분류 알고리즘이 많은 규칙을 따르기 때문에 좋은 결과를 얻을 수 있기 때문이다. 과제에서 대다수 클래스를 언더 샘플링하여 데이터의 균형을 조정해야했습니다. 그러나이 블로그에서 누군가는 균형 잡힌 데이터가 더 나쁘다고 주장합니다. https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ 그래서 …

4
ROC 곡선 아래 면적 대 전체 정확도
ROC의 AUC (Area Under Curve)와 전체 정확도에 대해 약간 혼란 스럽습니다. AUC가 전체 정확도에 비례합니까? 다시 말해, 전체 정확도가 클 때 AUC가 커질까요? 또는 정의상 양의 상관 관계가 있습니까? 그것들이 양의 상관 관계에있는 경우, 왜 우리는 일부 출판물에서 두 가지를 모두보고해야 하는가? 실제로 분류 작업을 수행 한 결과는 다음과 같습니다. …

2
순진 베이와 다항식 순진 베이의 차이점
전에 Naive Bayes 분류기를 다루었습니다 . 최근 에 Multinomial Naive Bayes 에 대해 읽었습니다 . 또한 사후 확률 = (이전 * 가능성) / (증거) . Naive Bayes와 Multinomial Naive Bayes 사이에서 찾은 유일한 주요 차이점 (이 분류자를 프로그래밍하는 동안)은 나이브 베이 즈 다항식은 우도로 계산 단어 / 토큰 카운트 (랜덤 …

6
이진 분류를위한 변수 선택 절차
학습 세트의 관측치보다 많은 변수 / 기능이있을 때 이진 분류에 선호 하는 변수 / 기능 선택 은 무엇입니까 ? 여기서 목표는 분류 오류를 최대한 줄이는 기능 선택 절차가 무엇인지 논의하는 것입니다. 우리는 할 수 있습니다 표기법을 수정 일관성을 위해 : 대한 ,하자 수 관찰 학습 세트를 그룹에서 . 따라서 은 …

2
머신 러닝 분류기의 성능을 통계적으로 비교하는 방법은 무엇입니까?
예상 분류 정확도를 기준으로 한 분류자가 다른 분류기보다 기본 세트에서 통계적으로 더 나은지 테스트하고 싶습니다. 각 분류 자에 대해 기본 집합에서 임의로 학습 및 테스트 샘플을 선택하고 모델을 학습하고 모델을 테스트합니다. 각 분류 자에 대해이 작업을 10 번 수행합니다. 따라서 각 분류기에 대해 10 가지 추정 분류 정확도 측정 값이 …

3
더 정확한 분류기보다 정확도가 낮은 분류기에서 AUC가 더 높은 이유는 무엇입니까?
두 개의 분류 기가 있습니다 A : 순진한 베이지안 네트워크 B : 트리 (단일 연결) 베이지안 네트워크 정확성 및 기타 측정 측면에서 A는 B보다 상대적으로 성능이 좋지 않지만 R 패키지 ROCR 및 AUC를 사용하여 ROC 분석을 수행하면 A의 AUC가 B의 AUC보다 높은 것으로 나타났습니다. 사고? 진 양성 (tp), 위양성 (fp), …

1
lmer 모델의 효과 반복 계산
방금 혼합 효과 모델링을 통해 측정의 반복성 (일명 신뢰성, 일명 클래스 내 상관 관계)을 계산하는 방법을 설명하는 이 문서를 보았습니다. R 코드는 다음과 같습니다. #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.