«dataset» 태그된 질문

이 사이트에서 데이터 세트 요청이 주제를 벗어났습니다. 데이터 세트 작성, 처리 또는 유지 보수와 관련된 질문에이 태그를 사용하십시오.

5
머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법
예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
"아이리스"데이터 세트의 어떤 측면이 예제 / 교육 / 테스트 데이터 세트로서 성공을 거두었습니까?
"아이리스" 데이터 세트는 아마 여기에 대부분의 사람들에게 익숙한 - 그것은 정규 테스트 데이터 세트 및 데이터 시각화에서 기계 학습에 이르기까지의 예를 이동-에 데이터 세트입니다. 예를 들어, 이 질문의 모든 사람들은 치료로 분리 된 산점도에 대해 토론하기 위해 그것을 사용했습니다. 아이리스 데이터 세트가 유용한 이유는 무엇입니까 ? 그게 먼저 있었어? 누군가가 …
28 dataset 

1
lmer 모델의 효과 반복 계산
방금 혼합 효과 모델링을 통해 측정의 반복성 (일명 신뢰성, 일명 클래스 내 상관 관계)을 계산하는 방법을 설명하는 이 문서를 보았습니다. R 코드는 다음과 같습니다. #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


4
검토 자로서 저널이없는 경우에도 요청 데이터 및 코드를 제공 할 수 있습니까?
과학은 재현 할 수 있어야하므로 정의에 따라 데이터와 코드가 데이터와 코드 공유를 위해 Yale Roundtable에서 논의한 것처럼 재현성의 필수 구성 요소라는 인식이 높아지고 있습니다. 데이터 및 코드 공유가 필요없는 저널의 원고를 검토 할 때 데이터 및 코드를 사용할 수 있도록 요청할 수 있습니까 검토 할 때 나에게 출판 당시 공개적으로 …

2
일반 데이터 세트를위한 데이터 확대 기술?
많은 기계 학습 응용 프로그램에서 소위 데이터 보강 방법을 사용하면 더 나은 모델을 만들 수 있습니다. 예를 들어, 고양이와 강아지 의 이미지 훈련 세트를 가정하십시오 . 회전, 미러링, 대비 조정 등을 통해 원래 이미지에서 추가 이미지를 생성 할 수 있습니다.100100100 이미지의 경우, 데이터 확대는 비교적 간단합니다. 그러나 예를 들어 샘플로 …

4
PCA 공간에 새로운 벡터를 투영하는 방법?
주성분 분석 (PCA)을 수행 한 후 PCA 공간에 새 벡터를 투영하려고합니다 (즉, PCA 좌표계에서 해당 좌표를 찾습니다). 를 사용하여 R 언어로 PCA를 계산했습니다 prcomp. 이제 내 벡터에 PCA 회전 행렬을 곱할 수 있어야합니다. 이 매트릭스의 주요 구성 요소를 행 또는 열로 배열해야합니까?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

9
과적 합 및 과적 합
과적 합과 과적 합에 대해 조사한 결과 이들이 정확히 무엇인지 이해했지만 그 이유를 찾을 수 없습니다. 과적 합과 과적 합의 주된 이유는 무엇입니까? 모델 훈련에서이 두 가지 문제에 직면하는 이유는 무엇입니까?

1
머신 러닝 알고리즘에서 누락 된 데이터와 희소 데이터의 차이점
희소 데이터와 누락 된 데이터의 주요 차이점은 무엇입니까? 기계 학습에 어떤 영향을 미칩니 까? 보다 구체적으로, 희소 데이터와 누락 된 데이터가 분류 알고리즘 및 회귀 (예측 숫자) 유형의 알고리즘에 미치는 영향. 누락 된 데이터의 백분율이 중요하고 누락 된 데이터가 포함 된 행을 삭제할 수없는 상황에 대해 이야기하고 있습니다.

1
원격 감독 : 감독, 반 감독 또는 둘 다?
"원격 감독"은 약하게 분류 된 훈련 세트가 주어지면 분류자가 학습되는 학습 체계입니다 (훈련 데이터는 휴리스틱 / 규칙에 따라 자동으로 표시됩니다). 레이블이있는 데이터에 경험적 / 자동으로 레이블이 지정된 경우 감독 학습과 준 감독 학습 모두 그러한 "원격 감독"을 포함 할 수 있다고 생각합니다. 그러나이 페이지 에서 "원격 감독"은 "반 감독 학습"(즉, …

5
기본적인 머신 러닝 알고리즘을 배우기위한 좋은 데이터 세트는 무엇이며 그 이유는 무엇입니까?
나는 기계 학습에 익숙하지 않고 다른 기계 학습 알고리즘 (결정 트리, 부스팅, SVM 및 신경망) 간의 차이점을 비교하고 대조 할 수있는 일부 데이터 세트를 찾고 있습니다. 이러한 데이터 세트는 어디에서 찾을 수 있습니까? 데이터 세트를 고려하면서 무엇을 찾아야합니까? 좋은 데이터 세트를 가리키고 데이터 세트를 만드는 데 도움이된다면 좋을까요?

4
치료에 의해 영향을받는 공변량에 필요한 좋은 데이터 예
나는 많은 R 데이터 세트, DASL 및 다른 곳의 게시물을 살펴 보았고 실험 데이터의 공분산 분석을 보여주는 흥미로운 데이터 세트의 좋은 예를 많이 찾지 못했습니다. 통계 교과서에는 많은 데이터가 포함 된 "장난감"데이터 세트가 있습니다. 다음과 같은 예를 갖고 싶습니다. 흥미로운 이야기가 담긴 실제 데이터 적어도 하나의 처리 인자와 두 개의 …

2
데이터베이스에 대한 품질 보증 및 품질 관리 (QA / QC) 지침
배경 나는 기본 문헌에서 데이터베이스 로의 데이터 입력을 감독하고있다 . 데이터 입력 프로세스는 특히 사용자가 실험 설계를 해석하고 그래픽 및 테이블에서 데이터를 추출하고 결과를 표준화 된 단위로 변환해야하기 때문에 오류가 발생하기 쉽습니다. 데이터는 웹 인터페이스를 통해 MySQL 데이터베이스에 입력됩니다. 지금까지 20 개가 넘는 변수, 100 개가 넘는 종 및 500 …

10
소셜 네트워크 데이터 세트
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 분류 작업에 대한 소셜 네트워크 데이터 세트 (twitter, friendfeed, facebook, lastfm 등)를 arff 형식으로 찾고 있습니다. UCI와 Google을 통한 검색은 지금까지 성공하지 못했습니다 ... 제안 사항이 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.