결과 변수에 대한 다중 대치


17

농업 시험에 대한 데이터 세트가 있습니다. 내 응답 변수는 응답 비율입니다 : log (treatment / control). 차이점을 중재하는 것에 관심이 있으므로 RE 메타 회귀 분석을 실행합니다 (가중치가 적용되지 않음). 효과 크기가 추정치의 변화와 관련이 없다는 것이 매우 분명하기 때문입니다.

각 연구는 곡물 생산량, 바이오 매스 생산량 또는 둘 다를보고합니다. 연구 된 모든 식물이 곡물에 유용하지는 않았기 때문에 바이오 매스 수율 만보고하는 연구에서 곡물 수율을 무시할 수는 없습니다 (예 : 사탕 수수 포함). 그러나 곡물을 생산 한 각 식물에는 바이오 매스가있었습니다.

누락 된 공변량에 대해서는 반복 회귀 대치 (Andrew Gelman의 교과서 장 참조)를 사용했습니다. 합리적인 결과를 제공하는 것으로 보이며 전체 프로세스는 일반적으로 직관적입니다. 기본적으로 결 측값을 예측하고이 예측값을 사용하여 결 측값을 예측하고 각 변수가 대략 수렴 될 때까지 각 분포를 반복합니다 (분포).

누락 된 결과 데이터를 대치하기 위해 동일한 프로세스를 사용할 수없는 이유가 있습니까? 곡물 반응 비율, 작물 유형 및 기타 공변량을 고려할 때 바이오 매스 반응 비율에 대해 상대적으로 유익한 대치 모델을 형성 할 수 있습니다. 그런 다음 계수와 VCV의 평균을 구하고 표준 연습에 따라 MI 보정을 추가합니다.

그러나이 계수는 결과 자체가 대치 될 때 무엇을 측정합니까? 공변량에 대한 계수 해석이 표준 MI와 다른가? 그것에 대해 생각하면, 이것이 효과가 없다고 스스로 확신 할 수는 없지만 확실하지 않습니다. 자료 읽기에 대한 생각과 제안을 환영합니다.


나는 대답을 얻지 못했지만 하나의 질문과 두 가지 메모 : 1) 비율의 로그는 물론 로그의 차이입니다. 따라서 DV는 log (treatment)-log (control)와 같습니다. 2) Gelman의 어떤 교과서를보고 있었습니까?
Peter Flom-Monica Monica 복원

예, DV는 log (treatment) -log (control)와 같습니다. : 나는 실종 겔만 온라인으로 게시 한 데이터에 (비 기술적) 장에 반복 회귀 전가를 내놓고있어 stat.columbia.edu/~gelman/arm/missing.pdf
generic_user

결과를 대치하면 Monte Carlo 오류가 발생한다고 들었습니다. 나중에 링크를 찾으려고합니다. 공변량에 대한 대치 모델에 결과를 포함시켜야합니다.
DL Dahly

답변:


19

의심 한대로 결과 측정에 다중 대치를 사용하는 것이 유효합니다. 이것이 유용한 경우도 있지만 위험 할 수도 있습니다. 모든 공변량이 완료되고 결과가 불완전한 상황을 고려합니다.

대치 모델이 올바른 경우 대치 된 데이터에서 모수 추정값에 대한 유추를 얻을 수 있습니다. 결측이 예측 자, 즉 MNAR 하에서 조정 후 결과와 관련이있는 경우 전체 사례에서 얻은 추론이 실제로 잘못 될 수 있습니다. 따라서 데이터가 MNAR임을 알고 있거나 의심되는 경우 대치가 유용합니다.

MAR에서는 일반적으로 결과를 대치 할 수있는 이점이 없으며, 대치 수가 적을수록 시뮬레이션 오류로 인해 결과가 더 다양 할 수 있습니다. 이것에는 중요한 예외가 있습니다. 모델의 일부가 아니며 결과와 밀접한 관련이있는 보조 완전 변수에 액세스 할 수있는 경우 대치가 완전 사례 분석보다 훨씬 더 효율적일 수 있으므로보다 정확한 추정치 및 짧은 신뢰 구간이 생성됩니다. 이러한 상황이 발생하는 일반적인 시나리오는 모든 사람에 대한 저렴한 결과 측정 값과 하위 집합에 대한 비싼 측정 값이있는 경우입니다.

많은 데이터 세트에서 독립 변수에서도 누락 된 데이터가 발생합니다. 이 경우 독립 변수를 대치하기 위해 대치 된 버전이 필요하므로 결과 변수를 대치해야합니다.


고마워, 이것은 내 직감과 일치하지만 종속 변수를 무시하는 잘 알려진 출판 연구에 대한 링크를 공유 할 수 있습니까? 결과 측정을 무시하려는 주된 이유 중 하나는 DF 요구 사항이 매우 높은 GAM에서 반 매개 변수 텐서 제품 상호 작용 용어를 촉진하기 위해 샘플 크기를 늘리는 것입니다 (약 250에서 450으로). 벌칙을 받고 edf를 낮추는 것). 내 경우에는 MAR이 합리적입니다.
generic_user

1
분산 분석은 균형 잡힌 설계를 얻는 것이 널리 시행되었습니다. XA가없는 RJA Little, Regression, JASA 1992의 소개를 참조하십시오.이 방법으로 샘플 크기를 늘려도 더 정확한 추정값을 얻는 데 도움이되지 않는다고 생각합니다. 보조 변수의 경우, JASA 1996, 18 세 이후 다중 대치, DB Rubin의 초 고효율에 관한 섹션을 읽으십시오.
Stef van Buuren

1
"MAR 아래에는 일반적으로 결과에 영향을 줄 수있는 이점이 없습니다." -앞에서 언급 한 것을 보았지만 이에 대한 언급이 없습니다. 하나만 제공해 주시겠습니까?
Robert Long

나는 당신이 Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 를 인용 할 수 있다고 생각 하지만 예외는주의하십시오.
Stef van Buuren

1
@StefvanBuuren-대부분 도움이되는 답변이지만, "데이터가 MNAR이라는 것을 알고 있거나 의심 할 경우"대치가 완전한 사례 분석보다 더 이상 문제를 해결할 수 없다는 것이 이해입니다. 이것은 "무료 점심"카테고리에 속하지 않는 것 같습니다.
rolando2

2

결과 데이터를 대치하는 것은 매우 일반적이며 임의 오류를 설명 할 때 올바른 추론으로 이어집니다.

전체 사례 분석에서 결 측값을 조건부 평균으로 대치하여 단일 대치 인 것처럼 들립니다. 연속 공변량의 경우 이러한 결 측값을 소급하여 측정 한 경우 임의 오류가 발생하는 다중 대치입니다. EM 알고리즘은 가능한 범위의 관측 된 결과를 평균화하여 유사한 방식으로 작동합니다.

단일 대치로 평균-분산 관계가없는 경우 모델 매개 변수를 정확하게 추정 할 수 있지만, 제 1 방향으로 치우 치면서 제 1 종 오류율을 증가시키는 표준 오차 추정치를 제공합니다. 이러한 요인을 측정 한 경우 관찰 한 오류의 정도에 대해 "낙관적"이었기 때문입니다.

다중 대치 (Multiple imputation)는 조건부 평균 대치에 대해 가산 오차를 반복적으로 생성하는 과정으로, 7 개 또는 8 개의 시뮬레이션 된 대치를 통해 모델과 해당 오류를 결합하여 모델 매개 변수 및 표준 오류의 정확한 추정치를 얻을 수 있습니다. 공변량과 결과가 함께 누락 된 경우 SAS, STATA 및 R 에는 "완료된"데이터 세트 (고정 및 비 랜덤으로 처리되는 대치 된 값을 갖는 데이터 세트)가 생성 되는 연쇄 방정식을 통해 다중 대치라고 하는 소프트웨어가 있습니다. 각각의 완전한 데이터 세트로부터 추정 된 파라미터, 및 정확한 수학적 구성을 사용하여 조합 된 파라미터 추정치 및 표준 오차 (Van Buuren 논문에 상세).

MI의 프로세스와 설명한 프로세스의 약간의 차이는 대치 된 데이터를 사용하여 결과의 ​​조건부 분포를 추정 할 때 특정 요소를 대치하는 순서에 따라 달라진다는 사실을 설명하지 않았다는 것입니다. MI 결과 에서 결측 공변량 컨디셔닝 의 조건부 분포를 추정해야합니다 . 그렇지 않으면 치우친 모수 추정값을 얻게됩니다.


감사. 우선, 나는 MICE 또는 MI를 사용하지 않고 R에서 처음부터 모든 것을 프로그래밍하고 있습니다. 둘째, 조건부 기대치뿐만 아니라 (모델링 된) 예측 분포를 이끌어 내고 있습니다. 이것이 두 번째 단락에서 말하는 것입니까? 그렇지 않다면 설명을 부탁드립니다. 또한 어떤 Royston 논문을 언급하고 있습니까? 마지막으로- "대치 변수에 종속 변수를 넣어야합니다"보다 복잡한 것을 말하고 있습니까? 그렇다면 명확하게 설명하겠습니다.
generic_user

마지막으로-나는 단일 대치를하고 있지 않습니다. 나는 데이터가 채워진 Rubin의 V_b = W + (1 + 1 / m) B 공식을 사용하여 30 개의 모델을 피팅하고 있습니다.
generic_user

Royston 종이는 하이퍼 링크되었습니다. 실제로 R에서 프로그램을 구현 한 Van Buuren을 연결하고 계산 세부 사항을 포함 하려고했습니다 . doc.utwente.nl/78938 MICE / MI는 프로세스입니다. 집에서 만든 코드를 기반으로 대치하는 경우 세부 사항을 더 자세히 설명해야합니다. 조건부 평균 = 모형이 올바른 경우 예측 된 값 (또는 대략 필요한 가정) "결과 추가"보다 더 복잡합니다. 몇 가지 누락 된 패턴 (적어도 3 개, 공변량 누락 / 결과 / 공통 누락)에 대해 대치하고 있습니다.
AdamO

예측 값을 30 회만 대치하는 경우 동일한 결과가 30 회 나옵니다. 오류를 어떻게 추정합니까?
AdamO

fit,imp
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.