나는 사람들의 샘플에서 2 번 지점에서 반복 측정을했습니다. 1 번에는 18k 명이 있고 2 번에는 13k가 있습니다 (5000 명은 추적 조사에서 손실 됨).
시간 1에 측정 된 일련의 예측 변수 X에서 시간 2에 측정 된 결과 Y를 회귀하고 싶습니다 (결과는 시간 1에 측정 할 수 없음). 모든 변수에 일부 결측 데이터가 있습니다. 그것의 대부분은 비교적 무작위로 보이거나 누락이 관찰 된 데이터에 의해 잘 묘사 된 것처럼 보입니다. 그러나 결과 Y에서 누락 된 대부분은 후속 조치 손실로 인한 것입니다. 다중 대치 (R :: mice)를 사용하고 전체 데이터 집합을 사용하여 X에 대한 값을 대치하지만 Y의 대치에 관한 상충되는 두 가지 조언을 받았습니다.
1) 18k의 전체 샘플에서 X와 V에서 Y를 대치합니다 (V = 유용한 보조 변수).
2) 추적 관찰에서 잃어버린 개인의 경우 Y를 무시하지 마십시오 (따라서 후속 회귀 모델링에서 제외).
전자는 정보가 정보이기 때문에 이치에 맞습니다. 그러나 후자는 더 직관적 인 방식으로 의미가 있습니다 .Y ~ X + V를 기반으로 5000 명에게 결과를 무시하고 Y ~ X를 돌리고 추정하는 것은 잘못 된 것 같습니다.
어느 것이 더 정확합니까?
이 이전 질문은 유용하지만 후속 조치 손실로 인한 누락을 직접 해결하지는 않습니다 (아마도 답은 같지만 모르겠습니다).