«multiple-imputation» 태그된 질문

다중 대치 란 데이터의 다변량 특성을 보존하기위한 일련의 확률 대치 루틴을 나타냅니다.

5
머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법
예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R : 데이터 집합에 NaN이 없어도 "외부 함수 호출"오류에서 NaN / Inf를 발생시키는 임의 포리스트 [닫기]
캐럿을 사용하여 데이터 세트에 대해 교차 유효성 검사 임의 포리스트를 실행하고 있습니다. Y 변수는 요인입니다. 내 데이터 세트에 NaN, Inf 또는 NA가 없습니다. 그러나 임의의 포리스트를 실행하면 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see …

4
다중 대치 및 모델 선택
추정하고자 하는 선례 선형 모형 이있는 경우 다중 대치가 매우 간단합니다 . 그러나 실제로 일부 모델 선택을 원할 때 상황이 약간 까다로워 보입니다 (예 : 더 큰 후보 변수 세트에서 "최상의"예측 변수 세트를 찾으십시오-특히 LASSO 및 R을 사용하는 분수 다항식을 생각하고 있습니다). 한 가지 아이디어는 결 측값이있는 원래 데이터에 모형을 …

3
기차와 테스트로 나누기 전이나 후에 전가?
N ~ 5000의 데이터 세트가 있고 적어도 하나의 중요한 변수에서 약 1/2이 누락되었습니다. 주요 분석 방법은 Cox 비례 위험입니다. 다중 대치를 사용할 계획입니다. 또한 기차와 테스트 세트로 나눌 것입니다. 데이터를 분할 한 다음 별도로 대치해야합니까? 중요하다면 PROC MI에서 사용할 것 입니다 SAS.

2
결과 변수에 대한 다중 대치
농업 시험에 대한 데이터 세트가 있습니다. 내 응답 변수는 응답 비율입니다 : log (treatment / control). 차이점을 중재하는 것에 관심이 있으므로 RE 메타 회귀 분석을 실행합니다 (가중치가 적용되지 않음). 효과 크기가 추정치의 변화와 관련이 없다는 것이 매우 분명하기 때문입니다. 각 연구는 곡물 생산량, 바이오 매스 생산량 또는 둘 다를보고합니다. 연구 …

1
다중 대치 후 풀링 교정 플롯
다중 대치 후 교정 플롯 / 통계 풀링에 대한 조언을 원합니다. 미래 사건을 예측하기 위해 통계 모델을 개발하는 설정에서 (예를 들어, 병원 기록의 데이터를 사용하여 퇴원 후 생존 또는 사건을 예측하는 경우), 누락 된 정보가 많이 있다고 상상할 수 있습니다. 다중 대치는 이러한 상황을 처리하는 방법이지만 고유 한 대치 불확실성으로 …

2
데이터를 대치하거나 주변 데이터를 찾는 데 인접 정보 사용 (R)
가장 가까운 이웃이 가장 좋은 예측 변수라는 가정하에 데이터 세트가 있습니다. 양방향 그래디언트의 완벽한 예 값이 거의없는 경우가 있다고 가정하고 이웃과 추세를 기반으로 쉽게 예측할 수 있습니다. R의 해당 데이터 매트릭스 (운동의 더미 예) : miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) …

5
결 측값에 대한 다중 대치
특정 제약 조건에서 데이터 세트의 누락 된 값을 대체하기 위해 대치를 사용하고 싶습니다. 예를 들어, 내가 귀속 변수를 싶습니다 x1크거나 내 다른 두 변수의 합과 같다,라고 x2하고 x3. 또한 나 x3중 하나에 의해 대치되고 싶 거나 나 중 하나에 의해 대치되고 싶습니다 .0>= 14x20>= 16 다중 대치에 대해 SPSS에서 이러한 …

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
다중 대치 된 데이터 세트에서 부트 스트랩 된 p- 값을 풀링하려면 어떻게해야합니까?
MI (multiply imputed) 데이터로부터 의 추정치에 대해 p- 값을 부트 스트랩하고 싶지만 MI 세트에서 p- 값을 결합하는 방법이 확실하지 않다는 문제가 우려됩니다.θθ\theta MI 데이터 세트의 경우 추정치의 총 분산에 도달하는 표준 접근법은 Rubin의 규칙을 사용합니다. 풀링 MI 데이터 세트에 대한 검토는 여기 를 참조 하십시오 . 총 분산의 제곱근은 표준 …

2
여러 대치 된 데이터 세트에서 수행 된 테스트에서 풀링 된 p- 값을 얻는 방법은 무엇입니까?
R에서 Amelia를 사용하여 여러 대치 된 데이터 집합을 얻었습니다. 그 후 SPSS에서 반복 측정 테스트를 수행했습니다. 이제 테스트 결과를 풀링하고 싶습니다. Rubin의 규칙 (R의 다중 대치 패키지를 통해 구현 됨)을 사용하여 평균 및 표준 오류를 풀 수 있지만 p- 값을 풀링하는 방법을 알고 있습니다. 가능합니까? R에 그렇게하는 기능이 있습니까? 미리 …

2
종단 연구에서, 추적 관찰을 잃은 개인에 대해 시간 2에서 측정 한 결과 Y를 무시해야합니까?
나는 사람들의 샘플에서 2 번 지점에서 반복 측정을했습니다. 1 번에는 18k 명이 있고 2 번에는 13k가 있습니다 (5000 명은 추적 조사에서 손실 됨). 시간 1에 측정 된 일련의 예측 변수 X에서 시간 2에 측정 된 결과 Y를 회귀하고 싶습니다 (결과는 시간 1에 측정 할 수 없음). 모든 변수에 일부 결측 …

2
R MICE 데이터 대치의 실행 시간을 개선하는 방법
간단히 말해서 : R MICE (데이터 대치)의 실행 시간을 향상시키는 방법이 있습니까? 누락 된 데이터가 무작위로 포함 된 데이터 세트 (30 변수, 130 만 행)로 작업하고 있습니다. 30 개 변수 중 약 15 개에서 관측치의 약 8 %가 NA를 포함합니다. 누락 된 데이터를 무시하기 위해 MICE 패키지의 일부인 MICE 기능을 …


1
예측 변수가없는 다중 회귀
다음과 같은 형식의 데이터가 제공되었다고 가정합니다. ( y,엑스1,엑스2, ⋯ ,엑스엔)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) 과 ( y,엑스1,엑스2, ⋯ ,엑스n - 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1}). 우리는 예측의 임무가 주어진다와이yy 의 가치에 따라 엑스xx. 다음과 같은 두 가지 회귀를 추정합니다. 와이와이=에프1(엑스1, ⋯ ,엑스n - 1,엑스엔)=에프2(엑스1, ⋯ ,엑스n - 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.