«missing-data» 태그된 질문

데이터에 정보 부족 (갭)이있을 때 즉, 완전하지 않은 경우. 따라서 분석 또는 테스트를 수행 할 때이 기능을 고려해야합니다.

4
두 상관 관계가 크게 다른지 어떻게 확인합니까?
두 세트의 데이터 (B1, B2) 중 어느 것이 다른 세트 (A)와 더 잘 연관되는지 (피어슨 r)를 결정하고 싶습니다. 모든 데이터 세트에 누락 된 데이터가 있습니다. 결과 상관 관계가 크게 다른지 여부를 어떻게 확인할 수 있습니까? 예를 들어, 8426 값은 A와 B1 모두에 존재하며 r = 0.74입니다. 8798은 A 및 B2 …

2
랜덤 효과 메타 분석을위한 대체 가중치 체계 : 표준 편차 누락
나는 표준 편차를보고하지 않는 여러 연구를 다루는 무작위 효과 메타 분석을 연구하고 있습니다. 모든 연구는 표본 크기를보고합니다. SD 누락 데이터를 근사화하거나 대치 할 수 있다고 생각하지 않습니다. 원시 (비 표준화)를 사용하는 메타 분석은 모든 연구에서 표준 편차를 사용할 수없는 경우 효과 크기에 가중치를 적용 할 때 차이를 어떻게 의미해야합니까? 물론, …

2
시간에 따른보다 자세한 설명 변수 통합
시간이 지남에 따라 점점 더 자세한 예측 변수를 얻은 곳에서 변수를 가장 잘 모델링하는 방법을 이해하려고합니다. 예를 들어, 채무 불이행 대출에 대한 복구율 모델링을 고려하십시오. 20 년의 데이터가있는 데이터 세트가 있다고 가정하고, 그 첫 15 년 동안 대출이 담보인지 여부 만 알지만 그 담보의 특성에 대해서는 전혀 알지 못합니다. 그러나 …

1
일부 입력에 결 측값 (NA)이있는 경우 randomForest (R)로 예측
randomForest새로운 사례의 클래스를 예측하는 응용 프로그램에서 사용하려는 훌륭한 분류 모델이 있습니다. 새 사례에는 필연적으로 누락 된 값이 있습니다. NA에게는 예측이 작동하지 않습니다. 그러면 어떻게해야합니까? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], …

1
관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?
4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
예측 변수가없는 다중 회귀
다음과 같은 형식의 데이터가 제공되었다고 가정합니다. ( y,엑스1,엑스2, ⋯ ,엑스엔)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) 과 ( y,엑스1,엑스2, ⋯ ,엑스n - 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1}). 우리는 예측의 임무가 주어진다와이yy 의 가치에 따라 엑스xx. 다음과 같은 두 가지 회귀를 추정합니다. 와이와이=에프1(엑스1, ⋯ ,엑스n - 1,엑스엔)=에프2(엑스1, ⋯ ,엑스n - 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y …

4
자동 상관 및 신경망에 Matlab을 사용할 때 시계열 데이터의 차이 / NaN을 처리하는 방법은 무엇입니까?
시계열 측정 (높이 1 차원 시리즈)이 있습니다. 관찰 기간에는 측정 프로세스가 일정 시간 동안 중단되었습니다. 결과 데이터는 데이터에 차이가있는 NaN이있는 벡터입니다. MATLAB을 사용하면 자기 상관 ( autocorr)을 계산하고 신경망 ( )을 적용 할 때 문제가 발생합니다 nnstart. 이러한 간격 / NaN은 어떻게 처리해야합니까? 벡터에서 이것을 제거해야합니까? 아니면 보간 값으로 항목을 …

3
범주 형 변수의 '알지 못하는 / 거부 된'수준 처리
로지스틱 회귀를 사용하여 당뇨병 예측을 모델링하고 있습니다. 사용 된 데이터 세트는 질병 통제 센터 (CDC) 의 행동 위험 요소 감시 시스템 (BRFSS) 입니다. 독립 변수 중 하나는 고혈압입니다. '예', '아니요', '알지 못함 / 거부 됨'수준으로 분류됩니다. 모델을 빌드하는 동안 '알 수 없음 / 거부 됨'으로 해당 행을 제거해야합니까? 모델에서 해당 …

7
크기가 다른 두 변수 간의 상관
내가 일하고있는 문제에서 X와 Y라는 두 개의 임의 변수가 있습니다. 두 변수가 얼마나 밀접하게 상호 연관되어 있는지 알아 내야하지만 치수가 다릅니다. X의 행 공간의 순위는 4350이고, Y의 행 공간의 순위는 수만에서 실질적으로 더 크다. X와 Y는 모두 같은 수의 열을 갖습니다. 두 변수 사이의 상관 관계 측정이 필요하고 Pearson의 r은 …

2
데이터가 누락 된 생존 모델이 적절한 지 어떻게 확인합니까?
약간 단순화하면서, 약 10 년에 걸친 시스템에서 사람들의 출입 시간과 출입 시간을 기록한 약 백만 개의 레코드가 있습니다. 모든 레코드에는 시작 시간이 있지만 모든 레코드에는 종료 시간이 없습니다. 시스템의 평균 시간은 ~ 1 년입니다. 누락 된 종료 시간은 두 가지 이유로 발생합니다. 데이터를 캡처 할 때 시스템을 떠나지 않았습니다. 그 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.