«missing-data» 태그된 질문

데이터에 정보 부족 (갭)이있을 때 즉, 완전하지 않은 경우. 따라서 분석 또는 테스트를 수행 할 때이 기능을 고려해야합니다.

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
이상 감지를위한 결 측값이있는 시계열의 STL
관측치가 누락 된 일련의 기후 데이터에서 이상 값을 감지하려고합니다. 웹을 검색하면서 사용 가능한 많은 접근 방법을 찾았습니다. 이 중 stl 분해는 추세와 계절 성분을 제거하고 나머지를 연구한다는 의미에서 매력적입니다. 읽기 STL : 황토에 계절 - 트렌드 분해 절차 기반은 , stl누락 된 값에도 불구하고 적용 할 이상치의 영향을받지 가능한 가변성을 …

2
단일 변수에서 결측 데이터의 80 %
내 데이터에 하나의 변수에 누락 된 데이터의 80 %가 있습니다. 존재하지 않기 때문에 데이터가 누락되었습니다 (즉, 회사가 빚진 은행 대출 금액). 더미 변수 조정 방법 이이 문제의 해결책이라고 말하는 기사를 보았습니다. 이 연속 변수를 범주 형으로 변환해야한다는 것을 의미합니까? 이것이 유일한 해결책입니까? 이론적으로 생각할 때이 변수를 삭제하고 싶지 않습니다. 연구 …

3
불완전하거나 누락 된 데이터를 처리하는 기술
내 질문은 분류 자 / 모델 교육 / 피팅 중 불완전한 데이터 를 처리하는 기술에 관한 것입니다 . 예를 들어, 수백 개의 행이있는 데이터 세트에서 각 행에 5 개의 차원과 클래스 레이블이 마지막 항목이라고 가정하면 대부분의 데이터 포인트는 다음과 같습니다. [0.74, 0.39, 0.14, 0.33, 0.34, 0] 몇 가지가 다음과 같이 …

3
상관 행렬을 계산할 때 결 측값이있는 관측 값을 삭제하는 데 심각한 문제가 있습니까?
2500 개의 변수와 142 개의 관측치가있는이 거대한 데이터 세트가 있습니다. 변수 X와 나머지 변수 사이의 상관 관계를 실행하고 싶습니다. 그러나 많은 열의 경우 누락 된 항목이 있습니다. "pairwise-complete"인수 ( use=pairwise.complete.obs)를 사용하여 R 에서이 작업을 시도 하고 많은 상관 관계를 출력했습니다. 그러나 StackOverflow의 누군가 가이 기사 http://bwlewis.github.io/covar/missing.html 에 대한 링크를 게시 …

1
XGBoost는 예측 단계에서 누락 된 데이터를 처리 할 수 ​​있습니다
최근에 XGBoost 알고리즘을 검토 한 결과이 알고리즘이 교육 단계에서 누락 된 데이터 (대치없이)를 처리 할 수 ​​있음을 알았습니다. XGboost가 새로운 관측치를 예측하는 데 사용되거나 누락 된 데이터를 대치해야 할 때 누락 된 데이터 (대치없이)를 처리 할 수 ​​있는지 궁금합니다. 미리 감사드립니다.

3
glmnet을 사용하여 수축 (NAS) 방법으로 NA 값을 처리하는 방법
GWAS에서 올가미 회귀에 "glmnet"을 사용하고 있습니다. 일부 변형 및 개체에는 결 측값이 있으며 glmnet이 결 측값을 처리 할 수없는 것 같습니다. 이에 대한 해결책이 있습니까? 또는 올가미 회귀에서 누락 된 값을 처리 할 수있는 다른 패키지가 있습니까? 여기 내 스크립트가 있습니다. > library(glmnet) > geno6<-read.table("c6sigCnt.geno") > geno6[1:10,1:10] #genotype file (0,1,2 …

3
존재하지 않거나 누락 된 데이터를 어떻게 처리합니까?
예측 방법을 시도했는데 내 방법이 올바른지 확인하고 싶습니다. 저의 연구는 다른 종류의 뮤추얼 펀드를 비교하고 있습니다. GCC 지수를 그중 하나의 벤치 마크로 사용하고 싶지만 문제는 2011 년 9 월에 GCC 지수가 중단되었고 2003 년 1 월부터 2014 년 7 월까지의 연구가 진행되었다는 것입니다. 따라서 다른 지수 인 MSCI 지수를 사용하려고했습니다. …

2
존재하지 않는 (누락되지 않은) 데이터를 처리하는 방법은 무엇입니까?
나는 어떤 종류의 분류 자에 대한 입력을 위해 존재하지 않는 데이터를 처리하는 방법에 대한 좋은 텍스트 나 예제를 찾지 못했습니다. 누락 된 데이터에 대해 많이 읽었지만 다변량 입력과 관련하여 존재하지 않거나 존재하지 않는 데이터에 대해 수행 할 수있는 작업을 읽었습니다. 나는 이것이 매우 복잡한 질문이며 사용 된 교육 방법에 따라 …

2
누군가가 이미지를 좋아할 확률
나는 다음과 같은 문제가 있습니다 : -우리는 N 명 세트-우리는 K 이미지 세트가 있습니다 -각 사람은 몇 장의 이미지를 평가합니다. 사람은 이미지를 좋아하거나 좋아하지 않을 수 있습니다 (이 둘은 유일한 가능성입니다). -문제는 어떤 사람이 특정 이미지를 좋아할 가능성을 계산하는 방법입니다. 직관을 제시하는 예를 들어 보겠습니다. N = 4 K = …

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
정밀도 기반 (즉, 역 분산) ​​가중치가 메타 분석에 필수적인가?
정밀 분석 기반 가중치가 메타 분석의 중심입니까? Borenstein et al. (2009)는 메타 분석이 가능하기 위해서는 다음과 같은 것이 필요하다고 썼다. 연구에 따르면 단일 숫자로 표현할 수있는 포인트 추정치가보고됩니다. 해당 포인트 추정치에 대한 분산을 계산할 수 있습니다. 왜 (2)가 엄격하게 필요한지는 분명하지 않습니다. 그러나 실제로 널리 받아 들여진 메타 분석 방법은 …

3
회귀 분석에서 여러 모델을 작성하는 것보다 대치의 장점은 무엇입니까?
데이터가 누락 된 경우에 대해 단순히 다른 모델을 작성하는 것보다 누락 된 데이터에 대한 대치가 더 나은 이유에 대해 누군가가 통찰력을 제공 할 수 있는지 궁금합니다. 특히 [일반화 된] 선형 모델의 경우 (비선형의 경우 상황이 다를 수 있음) 기본 선형 모델이 있다고 가정하십시오. 와이= β1엑스1+ β2엑스2+ β삼엑스삼+ ϵ와이=β1엑스1+β2엑스2+β삼엑스삼+ϵ Y = …

1
Anova ()와 drop1 ()이 GLMM에 다른 답변을 제공 한 이유는 무엇입니까?
GLMM 형식이 있습니다. lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 를 사용할 때 자동차 패키지 또는에서 사용할 때 drop1(model, test="Chi")와 다른 결과를 얻습니다 . 후자의 두 사람도 같은 대답을합니다.Anova(model, type="III")summary(model) 조작 된 데이터를 사용 하여이 두 가지 방법이 일반적으로 다르지 않다는 것을 알았습니다. …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
JAGS의 응답 변수에 누락 된 값
Gelman & Hill (2006)의 말 : 버그에서는 회귀 분석에서 누락 된 결과를 간단히 데이터 벡터, NA 및 모두를 포함하여 쉽게 처리 할 수 ​​있습니다. 버그는 결과 변수를 명시 적으로 모델링하기 때문에이 모델을 사용하여 각 반복에서 결 측값을 대치하는 것이 쉽지 않습니다. 이것은 JAGS를 사용하여 예측을 수행하는 쉬운 방법 인 것 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.