«missing-data» 태그된 질문

데이터에 정보 부족 (갭)이있을 때 즉, 완전하지 않은 경우. 따라서 분석 또는 테스트를 수행 할 때이 기능을 고려해야합니다.

3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
다중 대치 후 성향 점수 일치
나는 이 논문을 참조한다 : Hayes JR, Groner JI. "다중 대치 및 성향 점수를 사용하여 외상 레지스트리 데이터로 인한 부상 심각도에 대한 카시트 및 시트 벨트 사용의 효과를 테스트합니다." J Pediatr Surg. 2008 년 5 월; 43 (5) : 924-7. 이 연구에서는 15 개의 완전한 데이터 세트를 얻기 위해 다중 …


3
R은 lm의 결 측값을 어떻게 처리합니까?
행렬 A의 각 열에 대해 벡터 B를 회귀하고 싶습니다. 결측 데이터가 없으면 사소한 일이지만 행렬 A에 결측 값이 포함되어 있으면 A에 대한 내 회귀는 모든 행이 포함되도록 제한됩니다. 값이 존재합니다 (기본 na.omit 동작). 누락 된 데이터가없는 열에 대해 잘못된 결과가 생성됩니다. 행렬 A의 개별 열에 대해 열 행렬 B를 회귀시킬 …

3
R : 데이터 집합에 NaN이 없어도 "외부 함수 호출"오류에서 NaN / Inf를 발생시키는 임의 포리스트 [닫기]
캐럿을 사용하여 데이터 세트에 대해 교차 유효성 검사 임의 포리스트를 실행하고 있습니다. Y 변수는 요인입니다. 내 데이터 세트에 NaN, Inf 또는 NA가 없습니다. 그러나 임의의 포리스트를 실행하면 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see …

3
R 캐럿 및 NA
나는 매개 변수 튜닝 기능과 균일 한 인터페이스에 대해 캐럿을 매우 선호하지만 적용된 "네이 키드"모델이 NA를 허용하더라도 항상 완전한 데이터 세트 (예 : NA가 없음)가 필요하다는 것을 관찰했습니다. 처음에는 필요하지 않은 힘든 대치 법을 적용해야한다는 점에서 매우 귀찮습니다. 어떻게 대치를 피하고 여전히 캐럿 이점을 사용할 수 있습니까?

5
누락 된 데이터를 처리하기위한 기계 학습 알고리즘
실험실 값을 포함한 고차원 임상 데이터를 사용하여 예측 모델을 개발하려고합니다. 5k 샘플과 200 개의 변수로 데이터 공간이 희소합니다. 아이디어는 피처 선택 방법 (IG, RF 등)을 사용하여 변수의 순위를 매기고 예측 모델을 개발하기 위해 최상위 피처를 사용하는 것입니다. Naïve Bayes 접근 방식으로 기능 선택이 잘 진행되는 동안 가변 공간에서 데이터 누락 …

2
기대 최대화 알고리즘이 로컬 최적으로 수렴하도록 보장되는 이유는 무엇입니까?
EM 알고리즘에 대한 몇 가지 설명을 읽었습니다 (예 : Bishop의 패턴 인식 및 기계 학습 및 기계 학습에 대한 Roger 및 Gerolami 첫 번째 과정). EM의 파생은 괜찮습니다. 이해합니다. 또한 알고리즘이 무언가에 적용되는 이유를 이해합니다. 각 단계에서 결과를 개선하고 가능성은 1.0로 제한됩니다. 따라서 간단한 사실 (함수가 증가하고 제한되면 수렴)을 사용하여 …

4
와 이블 분포에 대한 EM 최대 가능성 추정
참고 : 기술적 인 이유로 본인의 게시물을 게시 할 수없는 이전 학생으로부터 질문을 게시하고 있습니다. pdf Weibull 분포 의 iid 표본 x1,…,xnx1,…,xnx_1,\ldots,x_n 을 고려하면 유용한 누락 변수 표현 따라서 대신 MLE을 찾는 데 사용할 수있는 관련 EM (예상 최대화) 알고리즘 간단한 수치 최적화?fk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 …

4
PCA에 대한 결 측값 대치
이 prcomp()함수를 사용하여 R에서 PCA (주성분 분석)를 수행했습니다. 그러나 해당 함수에 na.action매개 변수가 작동하지 않는 버그 가 있습니다. 나는 stackoverflow에 대한 도움을 요청했다 . 두 명의 사용자가 두 가지 방법으로 NA가치 를 처리했습니다 . 그러나 두 솔루션의 문제점은 NA값 이있을 때 해당 행이 삭제되고 PCA 분석에서 고려되지 않는다는 것입니다. 내 …


5
데이터가 무작위로 누락되었는지 확인하기위한 통계적 접근
이진 분류 문제를 공격하는 데 사용할 많은 기능 벡터 세트가 있습니다 (파이썬에서 scikit learn 사용). 대치에 대해 생각하기 전에 누락 된 데이터가 '무작위로 누락'되거나 무작위로 누락되지 않은 경우 데이터의 나머지 부분에서 결정하려고합니다. 이 질문에 접근하는 현명한 방법은 무엇입니까? 더 나은 질문은 데이터가 '완전히 무작위로 누락되는지'를 묻는 것입니다. 그것을하는 현명한 방법은 …

2
여러 대치 후 후방 평균과 신뢰할 수있는 간격을 어떻게 모을 수 있습니까?
여러 대치를 사용하여 여러 개의 완성 된 데이터 집합을 얻었습니다. 완성 된 각 데이터 집합에 베이지안 방법을 사용하여 모수에 대한 사후 분포를 얻었습니다 (임의의 효과). 이 매개 변수의 결과를 어떻게 결합 / 풀링 할 수 있습니까? 더 많은 맥락 : 내 모델은 학교에 모인 개별 학생 (학생 당 한 번의 …

1
머신 러닝 알고리즘에서 누락 된 데이터와 희소 데이터의 차이점
희소 데이터와 누락 된 데이터의 주요 차이점은 무엇입니까? 기계 학습에 어떤 영향을 미칩니 까? 보다 구체적으로, 희소 데이터와 누락 된 데이터가 분류 알고리즘 및 회귀 (예측 숫자) 유형의 알고리즘에 미치는 영향. 누락 된 데이터의 백분율이 중요하고 누락 된 데이터가 포함 된 행을 삭제할 수없는 상황에 대해 이야기하고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.