R의 복잡한 측량 데이터에 다단계 모델 맞추기


11

R의 다단계 모델을 사용하여 복잡한 측량 데이터를 분석하는 방법에 대한 조언을 찾고 있습니다. survey패키지를 단일 수준 모델에서 선택의 비 균등 한 확률로 가중치를 사용 했지만이 패키지에는 다단계 모델링 기능이 없습니다. 이 lme4패키지는 다단계 모델링에는 적합하지만 다른 수준의 클러스터링에 가중치를 포함시키는 방법은 없습니다. Asparouhov (2006) 는 문제를 설정합니다.

다단계 모델은 클러스터 샘플링 설계의 데이터를 분석하는 데 자주 사용됩니다. 그러나 이러한 샘플링 설계는 종종 클러스터 수준과 개별 수준에서 동일하지 않은 선택 확률을 사용합니다. 샘플링 가중치는 이러한 확률을 반영하기 위해 하나 또는 두 가지 수준으로 할당됩니다. 샘플링 가중치가 어느 한 레벨에서 무시되면 파라미터 추정값이 실질적으로 바이어스 될 수 있습니다.

2 단계 모델에 대한 한 가지 접근 방식은 MPLUS에서 구현 된 MPML ( Multi -Level Pseudo Maximum Likelihood) 추정기입니다 ( Asparouhov et al,? ). Carle (2009)은 주요 소프트웨어 패키지를 검토하고 진행 방법에 대한 몇 가지 권장 사항을 제시합니다.

복잡한 측량 데이터 및 설계 가중치로 MLM을 올바르게 수행하려면 분석가는 프로그램 외부에서 스케일링 된 가중치를 포함하고 자동 프로그램 수정없이 "새"스케일링 된 가중치를 포함 할 수있는 소프트웨어가 필요합니다. 현재는 Mplus (5.2), MLwiN (2.02) 및 GLLAMM의 세 가지 주요 MLM 소프트웨어 프로그램이이를 허용합니다. 불행히도 HLM이나 SAS는이 작업을 수행 할 수 없습니다.

West and Galecki (2013) 는 더 많은 리뷰를 제공하며 관련 구절을 길게 인용하겠습니다.

때때로 분석가는 복잡한 설계를 가진 샘플에서 수집 한 데이터 세트를 조사하기 위해 LMM을 적합 시키려고합니다 (Heeringa et al, 2010, 12 장 참조). 복잡한 표본 설계는 일반적으로 모집단을 계층으로 나누고, 계층 내에서 개인 집단의 다단계 선택, 군집과 표본 표본 모두에 대해 불평등 한 선택 가능성을 특징으로합니다. 이러한 불균등 한 선택 확률은 일반적으로 개인에 대한 샘플링 가중치의 구성으로 이어져 분석에 통합 될 때 설명 매개 변수의 편견없는 추정을 보장합니다. 이러한 가중치는 무응답 조사를 위해 추가로 조정될 수 있으며 알려진 모집단 총계로 교정됩니다. 전통적으로 분석가는 회귀 모델을 추정 할 때 이러한 복잡한 샘플링 기능을 통합하기위한 설계 기반 접근 방식을 고려할 수 있습니다 (Heeringa et al., 2010). 최근 통계 학자들은 LMM을 사용하여 샘플링 계층의 고정 효과와 샘플링 된 클러스터의 랜덤 효과를 통합하여 이러한 데이터를 분석하는 모델 기반 접근 방법을 탐색하기 시작했습니다.

이러한 데이터를 분석하기위한 모델 기반 접근 방식 개발의 주요 어려움은 샘플링 가중치를 통합하기위한 적절한 방법을 선택하는 것입니다 (문제 요약은 Gelman, 2007 참조). Pfeffermann et al. (1998), Asparouhov and Muthen (2006), Rabe-Hesketh and Skrondal (2006)은 측량 가중치를 포함하는 방식으로 다단계 모델을 추정하는 이론을 개발했으며 Rabe-Hesketh and Skrondal (2006), Carle (2009) 및 Heeringa et al. (2010, 12 장)에서는 현재 소프트웨어 절차를 사용하여 응용 프로그램을 제시했지만 통계 연구 분야에서 계속 활발하게 활동하고 있습니다. LMM을 적용 할 수있는 소프트웨어 절차는 복잡한 설계 기능을 통합하기 위해 지금까지 문헌에서 제안 된 접근 방식을 구현하는 다양한 단계에 있습니다. 분석가는 복잡한 표본 조사 데이터에 LMM을 적용 할 때이 점을 고려해야합니다. 복잡한 샘플 설문 조사에서 수집 한 데이터에 LMM을 적용하는 데 관심이있는 분석가는이 문서의 현재 문헌과 일치하게 설문 조사 가중치를 추정 절차 (HLM, MLwiN, Mplus, xtmixed 및 gllamm)에 올바르게 통합 할 수있는 절차에 끌립니다. 지역.

이것은 내 질문에 나옵니다. 누군가가 L의 복잡한 설문 조사 데이터에 LMM을 적용하기위한 모범 사례 권장 사항이 있습니까?


1
안녕하세요 에릭, 시작이 WIH하는 단락의 링크 i've never said it before에서 addhealth이 게시물에 관심이있을 수 있습니다 .. :(
안토니 다 미코

1
@AnthonyDamico, 링크가 끊어졌습니다 :-(
Ben Bolker

@BenBolker입니다! 그들은 마이크로 데이터의 이름을 바 꾸었으므로, 나는 또한 다음과 같이했다 :) 새로운 위치 : asdfree.com/search/label/…
Anthony Damico

귀하의 질문을 잘못 해석했다면 죄송하지만, 실험 설계에서 가중치를 고정하고 알려진 가중치를 포함하는 선형 혼합 모형을 사용하고자합니다. 패키지 의 lmer함수를 lme4사용 weights하면 모형 적합 공정 에 대한 인수를 지정할 수 있으므로 고정 된 설계 가중치가있는 경우 해당 인수를 해당 인수와 통합 할 수 있어야합니다. 스틱의 끝이 잘못 되었습니까? 이것이 귀하의 요구에 부적합한 이유가 있습니까?
벤-복원 모니카

답변:


4

내가 아는 한 실제로 R에서 혼합 모델이 필요한 경우 (예를 들어 분산 성분에 관심이있는 경우) 실제로 R 에서이 작업을 수행 할 수 없습니다

에 가중치 인수는 lme4::lmer() 하지 않습니다 때문에, 당신이 원하는 일을 lmer()정밀 무게로 해석 가중치는 가중치를 샘플링하지. 일반 선형 및 일반 선형 모델과 달리 샘플링 가중치를 혼합 모델의 정밀 가중치로 처리하는 코드를 사용하면 정확한 포인트 추정값을 얻을 수 없습니다.

분산 성분을 추정 할 필요가없고 모델의 다단계 기능이 올바른 표준 오차를 얻도록하려면을 사용할 수 있습니다 survey::svyglm().


0

WeMix의 패키지는 적어도 선형 및 물류 다단계 모델, 지금은 옵션입니다. Stata 또는 MPlus에서 이러한 모델을 실행하는 것과 비교할 때 매우 느립니다.


0

나는 또한 같은 문제에 직면하고 있습니다. 지난 며칠 동안 많이 검색 한 결과, BIFIEsurvey 패키지는 샘플 및 복제 가중치와 그럴듯한 값으로 복잡한 측량 데이터가 포함 된 다중 레벨 모델을 분석하는 데 가장 가까운 것으로 나타났습니다 : https://cran.r-project.org/web /packages/BIFIEsurvey/index.html 그러나 패키지는 2 단계 모델로 제한됩니다. 또한 "intsvy"패키지 작성자는 장기적으로 "intsvy"가 다중 레벨 모델을 분석 할 수 있도록 계획하고 있지만 현재로서는 여전히 불가능합니다. 실수로 놓쳤을 수도있는이 문제의 해결 방법에 관한 진행 상황이 있다면 누군가 공유 할 수 있으면 기쁠 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.