«missing-data» 태그된 질문

데이터에 정보 부족 (갭)이있을 때 즉, 완전하지 않은 경우. 따라서 분석 또는 테스트를 수행 할 때이 기능을 고려해야합니다.

1
R에서 'NA'값이 glm에서 처리되는 방식
거의 천 개의 변수 (V1)와 약 2 억 개의 데이터 포인트가 포함 된 데이터 테이블 T1이 있습니다. 데이터가 드물고 대부분의 항목이 NA입니다. 각 데이터 포인트에는 다른 ID와 구별하기 위해 고유 한 ID 및 날짜 쌍이 있습니다. 별도의 변수 세트 (V2)를 포함하는 다른 테이블 T2가 있습니다. 이 테이블에는 T2의 항목을 고유하게 …

3
R에서 누락 된 데이터에 대한 전체 정보 최대 가능성
컨텍스트 : 데이터가 누락 된 계층 적 회귀. 질문 : R에서 누락 된 데이터를 처리하기 위해 전체 정보 최대 가능성 (FIML) 추정을 어떻게 사용합니까? 권장하는 패키지가 있으며 일반적인 단계는 무엇입니까? 온라인 자료와 예제도 도움이 될 것입니다. 추신 : 저는 최근에 R을 사용하기 시작한 사회 과학자입니다. 다중 대치가 옵션이지만 Mplus와 같은 …

2
결과 변수에 대한 다중 대치
농업 시험에 대한 데이터 세트가 있습니다. 내 응답 변수는 응답 비율입니다 : log (treatment / control). 차이점을 중재하는 것에 관심이 있으므로 RE 메타 회귀 분석을 실행합니다 (가중치가 적용되지 않음). 효과 크기가 추정치의 변화와 관련이 없다는 것이 매우 분명하기 때문입니다. 각 연구는 곡물 생산량, 바이오 매스 생산량 또는 둘 다를보고합니다. 연구 …

2
숫자 / 범주 값을 모두 사용하여 R에서 순서 형 로지스틱 회귀 분석을 어떻게 실행합니까?
기본 데이터 : '1,'[good] '2,'[middle] 또는 '3'[bad]와 같이 평가 대상으로 ~ 1,000 명을 보유하고 있습니다. 이는 미래에 사람들에게 예측하려는 값입니다. . 또한 성별 (범주 : M / F), 연령 (숫자 : 17-80) 및 인종 (범주 : 흑인 / 백인 / 라티노)과 같은 인구 통계 정보가 있습니다. 주로 네 가지 질문이 …

2
현재 채식주의 자에 대한 설문 조사 데이터 만있을 때 채식주의에 대한 평균 준수 기간을 계산하는 방법은 무엇입니까?
무작위 모집단 샘플을 조사했다. 그들은 채식을 먹는지 물었습니다. 그들이 예라고 대답하면, 그들은 중단없이 채식을 얼마나 오랫동안 먹었는지 명시하도록 요청 받았다. 이 데이터를 사용하여 채식주의에 대한 평균 준수 기간을 계산하고 싶습니다. 다시 말해, 누군가 채식을하면 평균적으로 채식을한다는 것을 알고 싶습니다. 다음과 같이 가정 해 봅시다 : 모든 응답자가 정확하고 정확한 답변을하였습니다 …

2
시계열에서 누락 된 데이터를 채우는 방법은 무엇입니까?
2 년 동안 10 분마다 기록 된 많은 오염 데이터가 있지만 데이터에는 몇 가지 간격이 있습니다 (한 번에 몇 주 동안 진행되는 데이터 포함). 데이터는 계절에 따라 다르며 밤에 비해 값이 많이 변하지 않고 데이터 포인트가 더 낮은 밤에 비해 큰 변화가 있습니다. 낮과 밤 시간 하위 집합에 황토 모델을 …

3
결 측값 및 / 또는 불규칙한 시계열이있는 R 예측 패키지 사용
R forecast패키지뿐만 아니라 zoo불규칙한 시계열 및 결 측값 보간에 대한 패키지에 깊은 인상을 받았습니다 . 내 응용 프로그램이 콜 센터 트래픽 예측 영역에 있으므로 주말의 데이터가 거의 누락되어 거의 처리 할 수 ​​있습니다 zoo. 또한 일부 불연속 점이 누락 될 수 있으므로 R을 사용 NA합니다. 건은 다음과 같은 예측 패키지의 …

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
귀무 가설 하에서 교환 가능한 샘플의 직관은 무엇입니까?
순열 검정 (랜덤 화 검정, 재 랜덤 화 검정 또는 정확한 검정이라고도 함)은 매우 유용하며, 예를 들어 요구되는 정규 분포 가정이 t-test충족되지 않고 순위에 따라 값을 변환 할 때 유용합니다. 비모수 테스트 Mann-Whitney-U-test는 더 많은 정보가 손실 될 수 있습니다. 그러나 이러한 종류의 테스트를 사용할 때 단 하나의 가정 만 …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

3
표본 크기, 최소값 및 최대 값에서 정규 분포를 재구성 할 수 있습니까? 중간 점을 사용하여 평균을 프록시 할 수 있습니다
나는 이것이 통계적으로 약간 끈적 거리는 것을 알고 있지만 이것이 내 문제입니다. 변수의 최소, 최대 및 샘플 크기를 말하는 많은 범위 데이터가 있습니다. 이러한 데이터 중 일부에는 평균도 있지만 많지는 않습니다. 각 범위의 변동성을 수량화하고 평균을 비교하기 위해 이러한 범위를 서로 비교하고 싶습니다. 분포가 평균 주위에 대칭이고 데이터에 가우시안 분포가 …

1
지수 평활 모델에서 누락 된 데이터 처리
지수 평활 모형의 맥락에서 누락 된 데이터를 처리하는 표준 방법은없는 것 같습니다. 특히, 예측 패키지 에서 ets 라고하는 R 구현은 데이터 손실없이 가장 긴 하위 시퀀스를 취하는 것으로 보이며 Hyndman et al. 누락 된 데이터에 대해 전혀 이야기하지 않는 것 같습니다. 사용자가 명시 적으로 요청하면 (그리고 누락 된 데이터가 너무 …

2
다양한 기능을 가진 데이터 세트 다루기
다양한 수의 기능으로 데이터를 분류하는 방법에는 어떤 것이 있습니까? 예를 들어, 각 데이터 포인트가 x 및 y 포인트의 벡터이고 각 인스턴스에 대해 동일한 개수의 포인트가없는 문제를 고려하십시오. x와 y 포인트의 각 쌍을 특징으로 취급 할 수 있습니까? 또는 각 데이터 포인트에 고정 된 수의 기능이 있도록 포인트를 어떻게 든 요약해야합니까?

3
임의 누락 (MAR) 구별 완전 누락 (MCAR)
나는이 두 가지를 여러 번 설명했다. 그들은 계속 내 두뇌를 요리합니다. '무작위로 누락'은 의미가 있으며 '완전히 누락으로'는 의미가 있습니다 ... '무작위로 누락'입니다. MAR이지만 MCAR이 아닌 데이터는 무엇입니까?

5
결 측값에 대한 다중 대치
특정 제약 조건에서 데이터 세트의 누락 된 값을 대체하기 위해 대치를 사용하고 싶습니다. 예를 들어, 내가 귀속 변수를 싶습니다 x1크거나 내 다른 두 변수의 합과 같다,라고 x2하고 x3. 또한 나 x3중 하나에 의해 대치되고 싶 거나 나 중 하나에 의해 대치되고 싶습니다 .0>= 14x20>= 16 다중 대치에 대해 SPSS에서 이러한 …

1
스플라인 또는 분수 다항식을 사용할 때 누락 된 데이터를 어떻게 처리 할 수 ​​있습니까?
Patrick Royston과 Willie Sauerbrei의 연속 변수 모델링을위한 분수 다항식을 기반으로 한 회귀 분석에 대한 다변량 모델 구축 : 실용적인 접근 방식을 읽고 있습니다. 지금까지 나는 감동했으며 이전에는 고려하지 않은 흥미로운 접근법입니다. 그러나 저자는 누락 된 데이터를 처리하지 않습니다. 실제로, p. 17 그들은 누락 된 데이터는 "많은 추가적인 문제를 야기시킨다. 여기서는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.