«machine-learning» 태그된 질문

기계 학습 알고리즘은 훈련 데이터의 모델을 구축합니다. "기계 학습"이라는 용어는 모호하게 정의됩니다. 여기에는 통계 학습, 강화 학습, 비지도 학습 등이 포함됩니다. 항상 더 구체적인 태그를 추가하십시오.


3
강화하면서 왜 학습자가“약한”가?
stats.SE에서 비슷한 질문을 참조하십시오 . 에서 증폭 과 같은 알고리즘 에이다 부스트 및 LPBoost를 "약한"학습자가 위키 백과에서 유용 할 더 나은 기회가보다 더 수행에만 결합하는 것으로 알려져있다 : 사용하는 분류기는 약할 수 있지만 (실질적인 오류율을 표시) 성능이 임의적이지 않은 한 (이진 분류의 경우 오류율이 0.5 인 경우) 최종 모델이 향상됩니다. …

1
Google Prediction API 뒤에 무엇이 있습니까?
Google Prediction API 는 사용자가 몇 가지 교육 데이터를 제출하여 신비한 분류기를 훈련시킨 후 스팸 필터를 구현하거나 사용자 기본 설정을 예측하는 등 수신 데이터를 분류하도록 요청할 수있는 클라우드 서비스입니다. 그러나 배후에는 무엇이 있습니까?

1
lmer 모델의 효과 반복 계산
방금 혼합 효과 모델링을 통해 측정의 반복성 (일명 신뢰성, 일명 클래스 내 상관 관계)을 계산하는 방법을 설명하는 이 문서를 보았습니다. R 코드는 다음과 같습니다. #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
경험적 분포와 가우스 모델 간의 교차 엔트로피 평균 제곱 오차가 왜됩니까?
5.5에서는 딥 러닝 (Ian Goodfellow, Yoshua Bengio 및 Aaron Courville의)에 따르면 음의 로그 우도로 구성된 손실은 훈련 세트에 의해 정의 된 경험적 분포와 모델에 의해 정의 된 확률 분포 사이의 교차 엔트로피입니다. 예를 들어, 평균 제곱 오차는 경험적 분포와 가우스 모델 간의 교차 엔트로피입니다. 나는 그들이 왜 동등한 지 이해할 …

3
교육, 검증 및 테스트를 포함한 교차 검증. 왜 우리는 세 개의 부분 집합이 필요합니까?
교차 유효성 검사 프로세스에 대한 질문이 있습니다. 저는 Cursera에서 기계 학습 과정을 진행 중입니다. 주제 중 하나는 교차 검증에 관한 것입니다. 따라하기가 약간 어렵다는 것을 알았습니다. 미래의 (알 수없는) 데이터에서 모델이 잘 작동하고 CV가 과적 합을 방지하기 때문에 CV가 필요한 이유를 알고 있습니다. 그러나 프로세스 자체는 혼란 스럽습니다. 내가 이해 …

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
분류에서 다른 손실 함수를 선택하면 약 0-1 손실에 미치는 영향은 무엇입니까?
우리는 일부 객관적인 기능이 최적화하기 쉽고 일부는 어렵다는 것을 알고 있습니다. 그리고 우리가 사용하고자하지만 사용하기 어려운 많은 손실 함수가 있습니다 (예 : 0-1 손실). 그래서 우리 는 작업을 수행하기 위해 프록시 손실 기능을 찾습니다 . 예를 들어 힌지 손실 또는 로지스틱 손실을 사용하여 0-1 손실을 "대략적인"수준으로 만듭니다. 다음은 Chris Bishop의 …


1
교차 유효성 검사가 유효성 검사 세트를 대신 할 수 있습니까?
텍스트 분류에는 약 800 샘플로 훈련 세트와 약 150 샘플로 시험 세트가 있습니다. 테스트 세트는 사용 된 적이 없으며 끝날 때까지 사용 대기 중입니다. 분류기 및 기능을 조정하고 조정하는 동안 10 배 교차 검증과 함께 800 샘플 교육 세트를 사용하고 있습니다. 이것은 별도의 유효성 검사 세트가 없지만 각각 10 배가 …

4
훈련 단계와 평가 단계 사이에 왜 비대칭 성이 있습니까?
기계 학습은 훈련 단계와 평가 단계의 두 단계로 진행되어야하며 서로 다른 데이터를 사용해야한다는 것이 특히 자연 언어 처리에서 잘 알려져 있습니다. 왜 이런거야? 직관적 으로이 프로세스는 데이터의 과적 합을 피하는 데 도움이되지만 이것이 사실 인 (정보 이론적) 이유는 알 수 없습니다. 관련하여, 나는 훈련에 사용되는 데이터 세트의 양과 2/3 및 …



6
가중치가 작을수록 정규화에서 모델이 더 단순 해지는 이유는 무엇입니까?
저는 1 년 전에 Andrew Ng의 기계 학습 과정을 수료했으며 이제 로지스틱 회귀 작업과 성능 최적화 기술에 대한 고등학교 수학 탐구를 작성하고 있습니다. 물론 이러한 기술 중 하나는 정규화입니다. 정규화의 목표는 모델 단순성의 목표를 포함하도록 비용 함수를 확장하여 과적 합을 방지하는 것입니다. 우리는 비용 함수에 각 가중치를 제곱하고 정규화 매개 …

7
Naive Bayes에서 테스트 세트에 알 수없는 단어가있을 때 Laplace 스무딩을 방해하는 이유는 무엇입니까?
나는 오늘 Naive Bayes Classification을 읽고있었습니다. 매개 변수 추정 이라는 제목 아래 에 1 스무딩을 추가했습니다 . 하자 ccc (같은 양 또는 음 등) 클래스를 참조하고,하자 www 토큰 또는 단어를 참조하십시오. P(w|c)P(w|c)P(w|c) 의 최대 우도 추정값 은 c o u n t ( w , c )c o u n …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.