종단 연구에서, 추적 관찰을 잃은 개인에 대해 시간 2에서 측정 한 결과 Y를 무시해야합니까?


10

나는 사람들의 샘플에서 2 번 지점에서 반복 측정을했습니다. 1 번에는 18k 명이 있고 2 번에는 13k가 있습니다 (5000 명은 추적 조사에서 손실 됨).

시간 1에 측정 된 일련의 예측 변수 X에서 시간 2에 측정 된 결과 Y를 회귀하고 싶습니다 (결과는 시간 1에 측정 할 수 없음). 모든 변수에 일부 결측 데이터가 있습니다. 그것의 대부분은 비교적 무작위로 보이거나 누락이 관찰 된 데이터에 의해 잘 묘사 된 것처럼 보입니다. 그러나 결과 Y에서 누락 된 대부분은 후속 조치 손실로 인한 것입니다. 다중 대치 (R :: mice)를 사용하고 전체 데이터 집합을 사용하여 X에 대한 값을 대치하지만 Y의 대치에 관한 상충되는 두 가지 조언을 받았습니다.

1) 18k의 전체 샘플에서 X와 V에서 Y를 대치합니다 (V = 유용한 보조 변수).

2) 추적 관찰에서 잃어버린 개인의 경우 Y를 무시하지 마십시오 (따라서 후속 회귀 모델링에서 제외).

전자는 정보가 정보이기 때문에 이치에 맞습니다. 그러나 후자는 더 직관적 인 방식으로 의미가 있습니다 .Y ~ X + V를 기반으로 5000 명에게 결과를 무시하고 Y ~ X를 돌리고 추정하는 것은 잘못 된 것 같습니다.

어느 것이 더 정확합니까?

이 이전 질문은 유용하지만 후속 조치 손실로 인한 누락을 직접 해결하지는 않습니다 (아마도 답은 같지만 모르겠습니다).

결과 변수에 대한 다중 대치


설명 할 수 있습니까? "대부분이 비교적 무작위로 보이거나 누락 된 것이 관측 된 데이터에 의해 잘 묘사되어있는 것 같습니다."
rolando2

1
다중 대치 및 대부분의 다른 대치 절차에서는 데이터가 임의로 누락되어야합니다 (MAR). 연구에서 감소의 메커니즘을 이해해야합니다. 그러나 귀하의 후속 연구에서 귀하의 결 측값이 MAR 또는 MCAR이 아닐 가능성이 있습니다.
Stats 학생

답변:


2

나는 이것이 계측 사례라고 생각합니다. 누락 된 Y가 아닌 누락 된 X를 원합니다.

Y~X

그러나 X는 종종 누락되거나 잘못 측정됩니다.

X~Z and Z does not impact Y- except through X.

그런 다음 다음을 실행할 수 있습니다.

 X~Z
 Y~Predicted(X)

표준 오류에 대한 조정이 필요합니다.

샘플 마모가 많은 경우 Heckmann 2 단계 절차를 살펴볼 수도 있습니다. http://en.wikipedia.org/wiki/Heckman_correction


2

나는 어느 쪽도 가장 적합하지 않다고 주장 할 것이다.

데이터가 MAR 또는 MCAR이 아니고 데이터가 그런 식으로 거의 발생하지 않는 경우 일반적으로 대치가 적합하지 않습니다. 값을 대치 할 때 이는 합리적인 가정이지만 데이터 에는 적합하지 않습니다 .YXY

데이터에서 누락 된 데이터를 모두 삭제하면 모수가 치우 치며 (데이터가 MCAR이 아닌 경우 위 참조) 추정의 정확도가 크게 떨어집니다. 이것은 "완전한 사례"분석이며 바람직하지 않습니다.

생존 분석 방법을 검토하는 것이 좋습니다. 이는 검열로 인해 일부 결과가 관찰되지 않는 경우 데이터를 분석하도록 설계된 방법입니다 . 검열 된 관측치를 식별 할 수있는 경우이를 고려할 모델이 있습니다.Y

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.