간단히 말해서 : R MICE (데이터 대치)의 실행 시간을 향상시키는 방법이 있습니까?
누락 된 데이터가 무작위로 포함 된 데이터 세트 (30 변수, 130 만 행)로 작업하고 있습니다. 30 개 변수 중 약 15 개에서 관측치의 약 8 %가 NA를 포함합니다. 누락 된 데이터를 무시하기 위해 MICE 패키지의 일부인 MICE 기능을 실행하고 있습니다.
method = "fastpmm"및 m = 1 인 하위 집합 (100,000 행)에서도 실행 시간이 상당히 느리고 약 15 분 동안 실행됩니다.
성능을 크게 잃지 않으면 서 실행 시간을 개선 할 수있는 방법이 있습니까? (mice.impute.mean은 매우 빠르지 만 중요한 정보 손실이 있습니다!).
재현 가능한 코드 :
library(mice)
df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE)))
df <- data.frame(scale(df))
output <- mice(df, m=1, method = "fastpmm")