다중 대치 사용시 혼합 효과 모델의 분산 성분에 대한 신뢰 구간을 결합하는 방법


20

다중 대치 (MI)의 논리는 누락 된 값을 한 번이 아니라 여러 번 (일반적으로 M = 5) 번 대치하여 M이 완료된 데이터 세트를 생성하는 것입니다. 그런 다음 M 완료 데이터 세트를 완료 데이터 방법으로 분석하여 M 추정치 및 표준 오류를 Rubin 공식을 사용하여 결합하여 "전체"추정치 및 표준 오류를 얻습니다.

지금까지는 훌륭하지만 혼합 효과 모델의 분산 성분이 관련된 경우이 레시피를 적용하는 방법을 잘 모르겠습니다. 분산 성분의 표본 분포는 비대칭이므로 해당 신뢰 구간은 일반적인 "추정 ± 1.96 * se (추정)"형식으로 제공 할 수 없습니다. 이러한 이유로 R 패키지 lme4 및 nlme는 분산 성분의 표준 오차도 제공하지 않고 신뢰 구간 만 제공합니다.

따라서 데이터 세트에서 MI를 수행 한 다음 M 개의 완료된 데이터 세트에 동일한 혼합 효과 모델을 피팅 한 후 분산 성 분당 M 신뢰 구간을 얻을 수 있습니다. 문제는 이러한 M 구간을 하나의 "전체"신뢰 구간으로 결합하는 방법입니다.

나는 이것이 가능해야한다고 생각한다-기사의 저자 (yucel & demirtas (2010) MI에 의한 추론에 대한 비정규 랜덤 효과의 영향)는 그것을 한 것처럼 보이지만 정확하게 어떻게 설명하지는 못합니다.

모든 팁은 많은 의무가 있습니다!

건배


매우 흥미로운 질문입니다. 결과를 공유하고 싶으면 결과를 기다리겠습니다 ...
chl

@ chl : 완료되면 결과를 테이블로 보낼 수 있지만 실제로 새로운 것을 발명하지는 않습니다. 지금까지 저는 2 단계 대치 모델 (R 패키지 팬) 하의 MI를 간단한 일반 모델 (2 단계 구조, R 패키지 표준 무시) 및 목록 삭제를 사용하는 MI와 MI를 비교하려고합니다. 샘플 크기가 다르면 분산 성분 등의 값이 세미나에 충분하지만 (나는 박사 과정 학생) 정확하지는 않습니다. 시뮬레이션 연구를 "재즈 업"하는 방법에 대한 아이디어가 있다면 듣고 싶습니다.
Rok

1
다른 한 가지 :이 문제에 대한 적절한 분석 솔루션이 있는지 확실하지 않습니다. 추가 문헌을 보았지만이 문제는 모든 곳에서 우아하게 조사되었습니다. 또한 yucel & demirtas (79 페이지의 기사에서 언급 한 기사에서)는 다음과 같이 기록했습니다. ), (sigma_b, se (sigma_b))는 Rubin에 의해 정의 된 MI 결합 규칙을 사용하여 결합되었습니다.”
Rok

분산 성분의 SE를 추정하기 위해 일종의 지름길을 사용했습니다 (물론 CI가 비대칭이기 때문에 부적절합니다). 그런 다음 고전적인 공식을 적용했습니다.
Rok

알았어. 투표 할 수 있도록 귀하의 의견을 답변에 넣을 수 있습니까?
chl

답변:


8

이것은 좋은 질문입니다! 이것이 완전한 대답인지는 확실하지 않지만 도움이 될 수 있도록 몇 줄을 삭제하십시오.

YUCEL 및 Demirtas (2010)에 JCGS에 발표 이전 용지, 참조 것으로 보인다 누락 된 값과 혼합 효과 모델 선형 변수에 대한 전산 전략을 벤처 캐피탈의 가능성 기반의 견적을 생산하는 하이브리드 EM / 피셔 채점 방식을 사용하는, . R 패키지 mlmmm 에서 구현되었습니다 . 그러나 CI를 생산하는지 모르겠습니다.

그렇지 않으면 데이터가없는 모델을 포함하여 다단계 모델에 주로 사용되는 WinBUGS 프로그램을 확실히 확인합니다 . 나는 일반적으로 전체 조건부 분포를 지정해야하기 때문에 공변량이 아닌 반응 변수에 MV가있는 경우에만 작동하는 것으로 기억됩니다 (MV가 독립 변수에 존재하는 경우 사전에 제공해야 함을 의미합니다 누락 된 X는 WinBUGS에서 추정 할 매개 변수로 간주됩니다 ...). r-sig-mixed, lme, lmer, PROC MIXED에서 누락 된 데이터에서 다음 스레드를 참조하면 R에도 적용되는 것 같습니다 . 또한 MLwiN 소프트웨어를 살펴볼 가치가 있습니다 .


답장을 보내 주셔서 감사합니다! 원칙적으로 나는 또한 내가 설명한 것과 같은 구체적인 문제를 해결하는 방법에 관심이 있습니다 (따라서 WinBUGS 팁에 감사드립니다). 그러나 현재 모델의 잘못된 사양에서 MI의 성능 (커버리지 속도 등)을 조사하는 세미나 논문에 대한 시뮬레이션 연구를 시도하고 있습니다. 솔루션을 찾을 수없고 고정 효과에 초점을 맞출 수 없다면 분산 성분을 잊어 버릴 것이라고 생각하지만 포기하는 것은 실망 스럽습니다.
Rok

@Rok 시뮬레이션을위한 훌륭한 아이디어! 이 특정 문제를 기대하겠습니다. 다단계 회귀에 대한 r-sig-mixed 메일 링과 Gelman의 책을 이미 검색했다고 가정합니다.
chl

나는 참조를 위해 탱크를 보았다! 불행히도, r-sig-mixed 아카이브에는 MI에 관한 것이 없습니다. Gelman은 주어진 대치 (§25.7) 내에서와 대치 사이에 차이가있을 때 MI로부터의 추론을 결합하는 방법에 대한 기본 공식 만 제공합니다.
Rok

6

위에서 반복 된 의견 :

이 문제에 대한 적절한 분석 솔루션이 있는지 확실하지 않습니다. 몇 가지 추가 문헌을 살펴 봤지만이 문제는 모든 곳에서 우아하게 간과됩니다. 또한 Yucel & Demirtas (79 페이지의 기사에서 언급 한 기사)가 다음과 같이 작성되었습니다.

이 곱하기 대치 된 데이터 셋을 사용하여 lme410 세트의 (beta, se (beta)), (sigma_b, se (sigma_b))로 이어지는 R 패키지를 사용하여 모델 […]을 추정 한 후 다음과 같이 정의 된 MI 결합 규칙을 사용하여 결합했습니다. 루빈.

분산 성분의 SE를 추정하기 위해 일종의 지름길을 사용했습니다 (물론 CI가 비대칭이기 때문에 부적절합니다). 그런 다음 고전적인 공식을 적용했습니다.


이 문제에 대한 경험을 공유하기 위해 다시 방문해 주셔서 감사합니다. 불행히도, 나는 진정한 해결책이 없지만 다른 제안이 나올 것입니다.
chl

"우연히 간과"... 문헌을들은 적이 있다면이를 검토하는 데 유용한 문구입니다.
매트 파커

3

면책 조항 : 이 아이디어는 어리석은 것일 수 있습니다. 저는 제안하는 것에 대한 이론적 의미를 이해하는 척하지 않을 것입니다.

" 제안 " : 단순히 100 (대개 5 번 알고 있음) 데이터 세트를 대치하고 lme4 또는 nmle을 실행하고 신뢰 구간 (100 개가 있음)을 얻은 다음 :

작은 간격 너비 (예 : 범위 / 1000 등)를 사용하여 각 매개 변수의 가능한 값 범위를 테스트하고 100 개 CI 중 95 개 이상에 나타나는 작은 간격 만 포함하십시오. 그러면 신뢰 구간의 Monte Carlo "평균"을 얻게됩니다.

이 접근 방식에 문제가 있거나 아마도 이론적 인 문제가 있다고 확신합니다. 예를 들어 일련의 분리 된 간격으로 끝날 있습니다. 이것은 당신의 분야에 따라 나쁜 것이거나 아닐 수도 있습니다. 범위가 95 % 미만인 영역으로 분리 된 완전히 겹치지 않는 신뢰 구간이 두 개 이상인 경우에만 가능합니다 .

당신은 또한 나의 임시 제안보다 확실히 더 잘 형성되고 이론적으로 더 뒷받침 될 후방 신뢰할만한 영역을 얻기 위해 누락 된 데이터에 대한 베이지안 처리에 더 가까운 것을 고려할 수 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.