«aggregation» 태그된 질문

잠재적으로 이질적인 데이터 그룹을 "함께 묶는"것을 의미합니다.

4
엣지 케이스의 정밀도 및 리콜에 대한 올바른 값은 무엇입니까?
정밀도는 다음과 같이 정의됩니다. p = true positives / (true positives + false positives) 로, 즉를 정확 true positives하고 false positives, 정밀도가 한 접근 방식 0? 리콜에 대한 동일한 질문 : r = true positives / (true positives + false negatives) 현재이 값을 계산 해야하는 통계 테스트를 구현 중이며 때로는 …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
일주일 동안 분 단위의 데이터를 시간 단위로 집계하는 방법은 무엇입니까?
매일 여러 데이터 열에 대한 시간별 평균을 구하고 동일한 그래프에 12 개의 "호스트"에 대한 결과를 어떻게 표시합니까? 즉, 24 시간 동안의 데이터가 몇 주 동안 표시되는지 그래프로 표시하고 싶습니다. 최종 목표는 샘플링 전후에이 데이터의 두 세트를 비교하는 것입니다. dates Host CPUIOWait CPUUser CPUSys 1 2011-02-11 23:55:12 db 0 14 8 …

6
식별자로 그룹화 된 데이터 프레임의 첫 번째 행을 얻는 빠른 방법 R
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 때때로 개인별로 여러 개의 관측치가있을 때 연령과 성별을 검색 할 때와 같이 식별자로 그룹화 된 데이터 세트의 첫 번째 행만 가져와야합니다. R 에서이 …
14 r  dataset  aggregation  plyr 

1
올가미에 대한 LARS 대 좌표 하강
L1 정규 선형 회귀 피팅에 LARS [1] 사용과 좌표 하강 사용의 장단점은 무엇입니까? 나는 주로 퍼포먼스 측면에 관심이있다 (내 문제는 N수십만에서 p20 이하인 경향이있다 ). 그러나 다른 통찰력도 인정 될 것이다. 편집 : 내가 질문을 게시 한 후 chl은 Friedman 등의 논문 [2]에 좌표 하강이 다른 방법보다 상당히 빠른 것으로 …

1
정규 분포의 조합에서 나온 분위수
저는 연령대가 다른 어린이를위한 인체 치수의 분포 (어깨 폭과 같은)에 대한 정보를 가지고 있습니다. 각 연령과 치수에 대해 평균 표준 편차가 있습니다. (또한 8 개의 Quantile이 있지만 원하는 것을 얻을 수 없다고 생각합니다.) 각 차원마다 길이 분포의 특정 Quantile을 추정하고 싶습니다. 각 치수가 정규 분포를 따른다고 가정하면 평균 및 표준 …

1
시계열에서 분석 단위 (집계 수준)를 어떻게 선택합니까?
시간의 모든 정밀도 수준에서 시계열의 관측치를 측정 할 수 있고 연구의 목표가 X와 Y의 관계를 식별하는 것이라면, 다른 집계보다 특정 집계 수준을 선택하기위한 경험적 정당성이 있습니까? 이론 및 / 또는 실제적인 한계에 기초하여 단순히 선택을 하는가? 이 주요 질문에 대한 세 가지 하위 질문이 있습니다. 더 작은 수준의 집계를 선택하기에 …

2
집계시 어떤 통계가 유지됩니까?
노이즈가 많은 길고 높은 해상도의 시계열이있는 경우 데이터를 더 낮은 해상도 (예 : 매일부터 월 단위로)로 집계하여 진행 상황을 더 잘 이해하고 일부를 효과적으로 제거하는 것이 좋습니다. 소음. 별도의 변수에 대한 선형 회귀 분석에 대한 를 포함하여 집계 된 데이터에 일부 통계를 적용하는 논문이 하나 이상 있습니다. 유효합니까? 노이즈 감소로 …

2
모든 커뮤니티에 대해 개별 회귀 분석을 실행해야합니까? 아니면 커뮤니티가 집계 된 모델에서 제어 변수가 될 수 있습니까?
DV로 지속적인 자산 인덱스 변수를 사용하여 OLS 모델을 실행하고 있습니다. 내 데이터는 서로 가까운 지리적으로 근접한 3 개의 유사한 커뮤니티에서 집계됩니다. 그럼에도 불구하고 커뮤니티를 제어 변수로 사용하는 것이 중요하다고 생각했습니다. 결과적으로 커뮤니티는 1 % 수준에서 중요합니다 (t 점수 -4.52). 커뮤니티는 3 개의 다른 커뮤니티 중 1 개에 대해 1,2,3으로 코딩 …

6
R의 data.frame에서 모든 고유 요인 조합에 대한 요약 통계를 찾는 방법은 무엇입니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . data.frame에서 요인의 각 고유 조합에 대해 data.frame에서 변수 요약을 계산하려고합니다. plyr를 사용해야합니까? apply ()와 반대로 루프를 사용하는 것이 좋습니다. 각 고유 한 조합을 …

1
랜덤 포레스트 확률 론적 예측 대 다수 투표
Scikit은 왜 (1.9.2.1. 랜덤 포레스트)에 대한 설명없이 모델 집계 기술에 대한 다수 투표 대신 확률 론적 예측 을 사용 하는 것으로 보입니다 . 이유에 대한 명확한 설명이 있습니까? 또한 Random Forest bagging에 사용될 수있는 다양한 모델 집계 기술에 대한 좋은 논문이나 리뷰 기사가 있습니까? 감사!

2
데이터에 대한 ROC 곡선 계산
그래서, 나는 16 개의 시험을 가지고 있는데, 여기에서 Hamming Distance를 사용하여 생체 특성으로부터 사람을 인증하려고합니다. 임계 값이 3.5로 설정되었습니다. 내 데이터는 다음과 같으며 1 번 시험 만 참 긍정입니다. Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.