다중 대치 및 모델 선택


21

추정하고자 하는 선례 선형 모형 이있는 경우 다중 대치가 매우 간단합니다 . 그러나 실제로 일부 모델 선택을 원할 때 상황이 약간 까다로워 보입니다 (예 : 더 큰 후보 변수 세트에서 "최상의"예측 변수 세트를 찾으십시오-특히 LASSO 및 R을 사용하는 분수 다항식을 생각하고 있습니다).

한 가지 아이디어는 결 측값이있는 원래 데이터에 모형을 적합시킨 다음 MI 데이터 세트에서이 모형을 재 추정하고 평상시와 같이 추정값을 결합하는 것입니다. 그러나 이것은 편향을 기대하고 있기 때문에 문제가있는 것 같습니다 (또는 왜 처음부터 MI를 사용합니까?). 그러면 처음부터 "잘못된"모델을 선택할 수 있습니다.

또 다른 아이디어는 각 MI 데이터 세트에서 사용하는 모델 선택 프로세스를 거치는 것입니다. 그러나 다른 변수 세트가 포함 된 경우 결과를 어떻게 결합합니까?

필자가 생각한 한 가지는 MI 데이터 세트를 쌓아서 하나의 큰 데이터 세트로 분석하여 단일 "최상의"모델에 적합하고 반복 측정을 사용하고 있다는 사실을 설명하기 위해 임의의 효과를 포함하는 것입니다. 각각의 관찰.

이것이 합리적으로 들립니까? 아니면 아마도 매우 순진한가? 이 문제에 대한 모든 조언 (다중 대치가있는 모델 선택)은 크게 감사하겠습니다.


2
"모델 피팅"을 "모델 선택"으로 변경하려면이 게시물을 편집하십시오. 사용중인 방법에 대해 논의하는 것도 도움이됩니다. 예를 들어, p- 값을 기반으로 한 단계적 모델 선택이 사용되는 경우, 대치 된 데이터를 스태킹하는 것은 절대 허용되지 않습니다. 누락 된 데이터 적용 MI 및 후속 모델 선택 프로세스를 포함하여 데이터의 부트 스트랩 리 샘플을 그리고 선택한 모델에 대한 정확한 "p- 값"을 계산할 수 있습니다.
AdamO

두 번째 단락에서, 왜 방법이 다중 대치의 요점을 놓치고 있다고 생각합니까? 또한 어떤 소프트웨어를 사용하고 있습니까?
Peter Flom-Monica Monica 복원

답변:


10

곱하기 대치 된 데이터에서 변수를 선택하기 위해 할 수있는 일이 많이 있지만, 모두 적절한 추정치를 산출하지는 않습니다. 다양한 가능성의 비교에 대해서는 Wood et al (2008) Stat Med 를 참조하십시오 .

다음 두 단계 절차가 실제로 유용하다는 것을 알았습니다.

  1. 선호되는 변수 선택 방법을 각 대치 된 데이터 세트에 독립적으로 적용하십시오 . 당신은 개의 다른 모델로 끝날 것입니다 . 각 변수에 대해 모형에 나타나는 횟수를 계산하십시오. 모델의 절반 이상에 나타나는 변수를 선택하십시오 .m mmmm
  2. 추가 단계적 모델 선택의 기준으로 곱하기 측정 된 데이터 세트 에서 계산 된 Wald 통계량 또는 우도 비율 검정의 p- 값을 사용하십시오 .m

사전 선택 단계 1은 계산량을 감소시키기 위해 포함된다. R을 사용한 2 단계 방법의 코드 예는 http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (섹션 6.4.2)를 참조 하십시오mice() . Stata에서는을 사용하여 2 단계 (모든 변수에서)를 수행 할 수 있습니다 mim:stepwise.


Stef, Stat Med 간행물 링크를 포함하십시오. 나는 당신의 대답도 약간 미화하려고 노력했습니다.
StasK

1
제안 된 루틴은 미리 지정된 회귀 집합 중에서 선택할 때만 의미가있을 수 있습니다. 그러나 2 차 추세, 5 및 9 노트 B 스플라인을 선택하고 CART 일 경우이 제안을 적용하는 방법을 잘 모르겠습니다.
StasK

Stas, 절차는 대치 모델이 올바른 것으로 가정합니다. 특히 대치 방법은 나중에 관심이있을 수있는 데이터의 모든 기능을 적절히 캡처해야합니다. 따라서 완전한 데이터 분석에 2 차 항 또는 B- 스플라인을 포함 시키려면 대치 모델에서 해당 기능이 보존되는 방식으로 대치 모델을 설정해야합니다 (참고 : 실제로 달성하기 어려울 수 있음) , 그러나 그것은 그 자체로 주제입니다). 대치 모델이 올바르게 지정되면 2 단계 선택 절차가 적용됩니다.
Stef van Buuren

그러면 기본적으로 대치 모델은 가능한 가장 풍부한 모델이어야합니다. 매개 변수가없는 로지스틱 모델의 완벽한 예측과 같이 제대로 작동하지 않는 상황을 겪었습니다.
StasK

동의했다. 가장 풍부한 모델에서 대치해야합니다. 따라서 가장 복잡한 분석을 먼저 정의하고 대치 모델을 이에 맞게 조정하십시오. 실제로는 달성하기 어려울 수 있으며 전체 데이터 모델의 복잡성이 증가함에 따라 더욱 어려워집니다. 무료 점심은 없습니다. 로지스틱 회귀 분석의 완벽한 예측은 여러 가지 방법으로 해결되었으며 주요 걸림돌을 제시 할 필요는 없습니다.
Stef van Buuren

4

간단합니다 : 표준 MI 결합 규칙을 적용 할 수 있습니다. 그러나 전가 된 데이터 세트에서 지원되지 않는 변수의 영향은 덜 두드러집니다. 예를 들어, 특정 대치 된 데이터 세트에서 변수를 선택하지 않은 경우 추정치 (분산 포함)는 0이며 이는 다중 대치 사용시 사용 된 추정치에 반영되어야합니다. 모델 선택 불확실성을 통합하기 위해 신뢰 구간을 구성하기 위해 부트 스트래핑을 고려할 수 있으며 모든 질문을 다루는이 최신 발행물을 살펴보십시오. http://www.sciencedirect.com/science/article/pii/S016794731300073X

추론이 언뜻보기보다 명확하고 복잡하지 않기 때문에 변수가 m / 2 데이터 세트 또는 sth 유사에서 선택된 경우 변수 선택과 같은 실용적인 접근 방식을 사용하지 마십시오.


3

나는 같은 문제를 겪고 있었다.

나의 선택은 소위 "다중 대치 올가미"였다. 기본적으로 모든 대치 된 데이터 세트를 결합하고 그룹 올가미 개념을 채택합니다. 모든 후보 변수는 m 개의 더미 변수를 생성 합니다. 각 더미 변수는 대치 된 데이터 세트에 해당합니다.

그런 다음 모든 m 더미 변수가 그룹화됩니다. 모든 대치 된 데이터 세트에서 후보 변수의 m 더미 변수를 삭제 하거나 모든 대치 된 데이터 세트에 유지합니다.

따라서 올가미 회귀 분석은 실제로 모든 대치 된 데이터 집합에 공동으로 적합합니다.

용지 확인 :

Chen, Q. & Wang, S. (2013). Statistics in Medicine, 32 : 3646-59. "다이옥신 노출 연구에 적용한 다중 측정 데이터에 대한 다양한 선택

그리고 관련 R 프로그램


나는 실제로 몇 년 전에 이것에 대해 당신에게 이메일을 보낸 것 같아요 :)
DL Dahly

1

비슷한 문제에 직면했습니다. 처음부터 모든 변수를 포함하고 싶다는 것을 알았던 데이터 세트가 있습니다 (예측보다 계수에 관심이 많았습니다). 우선 어떤 상호 작용이 지정되어야하는지.

저의 접근 방식은 후보 모델 집합을 작성하고, 여러 대치를 수행하고, 여러 모델을 추정하고, 각 모델에서 AIC를 저장하고 평균화하는 것입니다. AIC 평균이 가장 낮은 모델 사양이 선택되었습니다.

AIC에서 측정 간 차이를 페널티하는 수정을 추가하는 방법에 대해 생각했습니다. 그러나 반성하자 이것은 무의미 해 보였다.

이 접근 방식은 나에게 간단 해 보였지만 직접 발명했으며 통계학자는 아닙니다. 그것을 사용하기 전에, 사람들이 나를 고치거나 (환영합니다!)이 답변을 찬성 할 때까지 기다릴 수 있습니다.


답장을 보내 주셔서 감사합니다. 불행히도 내가 실제로 관심을 갖는 것은 합리적인 후보 모델을 먼저 선택하는 데 도움이되지 않는보다 자동화 된 / 탐색 모델 선택 방법을 사용하는 것입니다.
DL Dahly 2018 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.