«dataset» 태그된 질문

이 사이트에서 데이터 세트 요청이 주제를 벗어났습니다. 데이터 세트 작성, 처리 또는 유지 보수와 관련된 질문에이 태그를 사용하십시오.

3
교육 데이터 (또는 모든 데이터)에서만 기능 선택을 수행해야합니까?
교육 데이터 (또는 모든 데이터)에서만 기능 선택을 수행해야합니까? 나는 Guyon (2003) 과 Singhi and Liu (2006)와 같은 몇 가지 토론과 논문을 겪었 지만 여전히 정답에 대해서는 확실하지 않습니다. 내 실험 설정은 다음과 같습니다. 데이터 세트 : 50 건의 건강 관리 및 50 건의 질병 환자 (질병 예측과 관련이있는 CA 200 …

3
최소한의 메모리를 사용하여 데이터를 훈련하는 가장 효율적인 방법은 무엇입니까?
이것은 내 훈련 데이터입니다 : 200,000 예제 x 10,000 기능. 내 훈련 데이터 매트릭스는-200,000 x 10,000입니다. 각 예제의 기능을 생성 할 때마다 모든 데이터 세트를 하나씩 저장하여 메모리 문제없이 플랫 파일로 저장했습니다. 그러나 이제 Milk , SVM light 또는 기타 기계 학습 알고리즘을 사용하면 모든 것이 학습 데이터 대신 하나씩 …

3
다른 나라의 어린이 통계 교육?
전 세계 여러 나라에서 아이들이 배우는 통계 수준을 알고 싶습니다. 이와 관련하여 발생하는 일을 밝히는 데이터 / 링크를 제안 해 주시겠습니까? 시작하겠습니다. 이스라엘 : 고급 수학을 공부하는 학생들은 평균, sd, 히스토그램, 정규 분포, 매우 기본적인 확률을 어느 정도 공부합니다.
10 dataset  teaching 

3
회귀를 사용하여 데이터 범위를 벗어난 투영 확인? 절대 안돼? 때때로 괜찮습니까?
회귀를 사용하여 데이터 범위를 벗어나는 것에 대해 어떻게 생각하십니까? 선형 또는 전력 모형 형태를 따르는 것이 확실하다면 모형이 데이터 범위를 넘어서 유용하지 않습니까? 예를 들어, 가격에 따라 수량이 결정됩니다. 우리는 내가 믿는 데이터 범위를 벗어난 가격을 예상 할 수 있어야합니다. 당신의 생각? VOL PRICE 3044 4.97 2549 4.97 3131 4.98 …

2
버킷 화란 무엇입니까?
운이없는 머신 러닝에서 "버킷 화"에 대한 명확한 설명을 찾기 위해 노력하고 있습니다. 지금까지 이해 한 것은 버킷 화가 연속적인 값의 범위가 하나의 이산 값으로 대체되는 디지털 신호 처리의 양자화와 유사하다는 것입니다. 이 올바른지? 버킷 화 적용의 장단점 (정보 손실의 명백한 영향 외에)은 무엇입니까? 버킷 화 적용 방법에 대한 경험 규칙이 …


2
관계형 데이터로부터 학습
설정 많은 알고리즘이 단일 관계 또는 테이블에서 작동하지만 많은 실제 데이터베이스는 정보를 여러 테이블에 저장합니다 (Domingos, 2003). 질문 여러 (관계형) 테이블에서 어떤 유형의 알고리즘이 잘 학습됩니까 ? 특히 회귀 및 분류 작업에 적용 할 수있는 알고리즘에 관심이 있습니다 (예 : 네트워크 분석 중심이 아닌 링크 예측). 다음과 같은 여러 가지 …

1
관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?
4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
내 머신 러닝 구현을 테스트하는 데 유용한 데이터 세트는 어디에서 찾을 수 있습니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 육년 전 . 현재 자체적으로 일부 기계 학습 알고리즘을 구현하려고합니다. 그들 중 많은 사람들이 디버깅하기 어려운 불쾌한 속성을 가지고 있습니다. 일부 버그는 프로그램 충돌을 일으키지 않지만 의도 …
9 dataset 

1
통계적 유의성을 정량화하는 방법은 무엇입니까?
나는 통계에 비교적 익숙하지 않으며 내 질문이 완전히 틀렸다는 것을 이해합니다. 내 알고리즘과 다른 알고리즘을 테스트하고 있습니다. 출력은 동일하지 않지만 차이점이 "통계적으로 중요하지 않음"을 보여주고 싶습니다. 내 의견을 제시하기 위해 이것을 어떻게 정량화 할 수 있습니까?

4
자동 상관 및 신경망에 Matlab을 사용할 때 시계열 데이터의 차이 / NaN을 처리하는 방법은 무엇입니까?
시계열 측정 (높이 1 차원 시리즈)이 있습니다. 관찰 기간에는 측정 프로세스가 일정 시간 동안 중단되었습니다. 결과 데이터는 데이터에 차이가있는 NaN이있는 벡터입니다. MATLAB을 사용하면 자기 상관 ( autocorr)을 계산하고 신경망 ( )을 적용 할 때 문제가 발생합니다 nnstart. 이러한 간격 / NaN은 어떻게 처리해야합니까? 벡터에서 이것을 제거해야합니까? 아니면 보간 값으로 항목을 …

7
클러스터링 알고리즘의 속성을 보여주기 위해 2D 인공 데이터를 찾고
다른 분포와 형태에 따라 2 차원 데이터 포인트 (각 데이터 포인트는 두 개의 값 (x, y)로 구성된 벡터)의 데이터 세트를 찾고 있습니다. 그러한 데이터를 생성하는 코드도 도움이 될 것입니다. 그것들을 사용하여 일부 클러스터링 알고리즘의 성능을 플롯 / 시각화하고 싶습니다. 여기 몇 가지 예가 있어요. 클라우드 데이터와 같은 별 4 개의 …

7
데이터 시각화 예제, 교육 및 연구를위한 데이터 세트
연구중인 여러 datavis 기술을 테스트하는 데 사용할 수있는 기존 데이터 집합을 찾고 있습니다. R에 포함 된 것과 같은 몇 가지 리소스를 알고 있습니다 (시도 plot(Orange)또는 여기 참조 ). 하지만 한 걸음 더 나아가고 싶습니다. 시각화 도구를 테스트하기에 가장 적합한 실제 데이터 집합은 무엇입니까? datavis에 대한 학술 논문 또는 강의 슬라이드에서 …

2
데이터에 대한 ROC 곡선 계산
그래서, 나는 16 개의 시험을 가지고 있는데, 여기에서 Hamming Distance를 사용하여 생체 특성으로부터 사람을 인증하려고합니다. 임계 값이 3.5로 설정되었습니다. 내 데이터는 다음과 같으며 1 번 시험 만 참 긍정입니다. Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.