«data-imputation» 태그된 질문

누락 된 데이터를 "채우기"하는 데 사용되는 일반적인 메서드 클래스를 나타냅니다. 이를 위해 사용되는 방법은 일반적으로 보간 (http://en.wikipedia.org/wiki/Interpolation)과 관련이 있으며 데이터가 누락 된 이유 (예 : "무작위 누락")에 대한 가정이 필요합니다.

3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R 캐럿 및 NA
나는 매개 변수 튜닝 기능과 균일 한 인터페이스에 대해 캐럿을 매우 선호하지만 적용된 "네이 키드"모델이 NA를 허용하더라도 항상 완전한 데이터 세트 (예 : NA가 없음)가 필요하다는 것을 관찰했습니다. 처음에는 필요하지 않은 힘든 대치 법을 적용해야한다는 점에서 매우 귀찮습니다. 어떻게 대치를 피하고 여전히 캐럿 이점을 사용할 수 있습니까?

4
PCA에 대한 결 측값 대치
이 prcomp()함수를 사용하여 R에서 PCA (주성분 분석)를 수행했습니다. 그러나 해당 함수에 na.action매개 변수가 작동하지 않는 버그 가 있습니다. 나는 stackoverflow에 대한 도움을 요청했다 . 두 명의 사용자가 두 가지 방법으로 NA가치 를 처리했습니다 . 그러나 두 솔루션의 문제점은 NA값 이있을 때 해당 행이 삭제되고 PCA 분석에서 고려되지 않는다는 것입니다. 내 …

3
다중 대치 사용시 혼합 효과 모델의 분산 성분에 대한 신뢰 구간을 결합하는 방법
다중 대치 (MI)의 논리는 누락 된 값을 한 번이 아니라 여러 번 (일반적으로 M = 5) 번 대치하여 M이 완료된 데이터 세트를 생성하는 것입니다. 그런 다음 M 완료 데이터 세트를 완료 데이터 방법으로 분석하여 M 추정치 및 표준 오류를 Rubin 공식을 사용하여 결합하여 "전체"추정치 및 표준 오류를 얻습니다. 지금까지는 훌륭하지만 …

5
6 번째 응답 옵션 (“모르겠습니다”)이 5 포인트 리 커트 척도로 추가되었습니다. 데이터가 손실됩니까?
설문지에서 데이터를 구제하는 데 약간의 도움이 필요합니다. 동료 중 한 명이 설문지를 적용했지만 실수로 원래 5 점 리 커트 척도 (강하게 동의하지 않음)를 사용하는 대신 여섯 번째 답변을 척도에 삽입했습니다. 그리고 문제를 악화시키기 위해 여섯 번째 응답 옵션은…“모르겠습니다”입니다. 문제는 어느 시점에서든“모름”을 선택한 응답자의 큰 비율입니다. 그것들이 합리적으로 적은 비율이라면 데이터베이스에서 …

2
시계열에서 누락 된 데이터를 채우는 방법은 무엇입니까?
2 년 동안 10 분마다 기록 된 많은 오염 데이터가 있지만 데이터에는 몇 가지 간격이 있습니다 (한 번에 몇 주 동안 진행되는 데이터 포함). 데이터는 계절에 따라 다르며 밤에 비해 값이 많이 변하지 않고 데이터 포인트가 더 낮은 밤에 비해 큰 변화가 있습니다. 낮과 밤 시간 하위 집합에 황토 모델을 …

1
다중 대치 후 풀링 교정 플롯
다중 대치 후 교정 플롯 / 통계 풀링에 대한 조언을 원합니다. 미래 사건을 예측하기 위해 통계 모델을 개발하는 설정에서 (예를 들어, 병원 기록의 데이터를 사용하여 퇴원 후 생존 또는 사건을 예측하는 경우), 누락 된 정보가 많이 있다고 상상할 수 있습니다. 다중 대치는 이러한 상황을 처리하는 방법이지만 고유 한 대치 불확실성으로 …

3
머신 러닝에서 데이터 누락 문제를 해결하는 방법
기계 학습 알고리즘을 사용하여 예측하려는 거의 모든 데이터베이스는 일부 특성에 대해 누락 된 값을 찾습니다. 결 측값이있는 선을 제외하여 특성의 평균값으로 채워질 때 까지이 문제를 해결하는 몇 가지 방법이 있습니다. 기본적으로 종속 변수 (Y)가 누락 된 값을 가진 각 열이 될 수있는 회귀 (또는 다른 방법)를 실행하는 다소 강력한 접근 …

5
KNN 대치 R 패키지
KNN 대치 패키지를 찾고 있습니다. 나는 대치 패키지 ( http://cran.r-project.org/web/packages/imputation/imputation.pdf )를보고 있었지만 어떤 이유로 든 KNN 대치 기능 (설명에서 예제를 따르더라도) 0 값을 대치하기 위해 (아래와 같이). 나는 둘러 보았지만 아직 무언가를 찾을 수 없으므로 좋은 KNN 대치 패키지에 대한 다른 제안이 있는지 궁금해하고 있습니까? 여 아래 코드에서-NA 값은 Knn …

2
데이터를 대치하거나 주변 데이터를 찾는 데 인접 정보 사용 (R)
가장 가까운 이웃이 가장 좋은 예측 변수라는 가정하에 데이터 세트가 있습니다. 양방향 그래디언트의 완벽한 예 값이 거의없는 경우가 있다고 가정하고 이웃과 추세를 기반으로 쉽게 예측할 수 있습니다. R의 해당 데이터 매트릭스 (운동의 더미 예) : miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) …

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
XGBoost는 예측 단계에서 누락 된 데이터를 처리 할 수 ​​있습니다
최근에 XGBoost 알고리즘을 검토 한 결과이 알고리즘이 교육 단계에서 누락 된 데이터 (대치없이)를 처리 할 수 ​​있음을 알았습니다. XGboost가 새로운 관측치를 예측하는 데 사용되거나 누락 된 데이터를 대치해야 할 때 누락 된 데이터 (대치없이)를 처리 할 수 ​​있는지 궁금합니다. 미리 감사드립니다.

4
LASSO로 기능 선택을 위해 데이터를 준비하기 위해 결 측값을 처리하는 방법은 무엇입니까?
내 상황 : 작은 샘플 크기 : 116 이진 결과 변수 설명 변수의 긴 목록 : 44 설명 변수는 내 머리 꼭대기에서 나오지 않았습니다. 그들의 선택은 문헌에 근거했다. 대부분의 경우 샘플과 대부분의 변수에 결 측값이 있습니다. 선택된 기능 선택에 접근 : LASSO R의 glmnet 패키지는 데이터 세트에 누락 된 값이 …

3
회귀 분석에서 여러 모델을 작성하는 것보다 대치의 장점은 무엇입니까?
데이터가 누락 된 경우에 대해 단순히 다른 모델을 작성하는 것보다 누락 된 데이터에 대한 대치가 더 나은 이유에 대해 누군가가 통찰력을 제공 할 수 있는지 궁금합니다. 특히 [일반화 된] 선형 모델의 경우 (비선형의 경우 상황이 다를 수 있음) 기본 선형 모델이 있다고 가정하십시오. 와이= β1엑스1+ β2엑스2+ β삼엑스삼+ ϵ와이=β1엑스1+β2엑스2+β삼엑스삼+ϵ Y = …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.