다중 대치 된 데이터 세트에서 부트 스트랩 된 p- 값을 풀링하려면 어떻게해야합니까?


12

MI (multiply imputed) 데이터로부터 의 추정치에 대해 p- 값을 부트 스트랩하고 싶지만 MI 세트에서 p- 값을 결합하는 방법이 확실하지 않다는 문제가 우려됩니다.θ

MI 데이터 세트의 경우 추정치의 총 분산에 도달하는 표준 접근법은 Rubin의 규칙을 사용합니다. 풀링 MI 데이터 세트에 대한 검토는 여기 를 참조 하십시오 . 총 분산의 제곱근은 표준 오차 추정값 인 됩니다. 그러나 일부 추정량의 경우 총 분산에 알려진 닫힌 형태가 없거나 샘플링 분포가 정상이 아닙니다. 그런 다음 통계 {\ theta} / {se (\ theta)} 는 t- 분포되지 않고 무정형 일 수도 있습니다.θθ/se(θ)

따라서 완전한 데이터 사례에서 한 가지 대안은 통계량을 부트 스트랩하여 표본 분포가 정상적이지 않고 닫힌 형태를 알 수없는 경우에도 분산, p- 값 및 신뢰 구간을 찾는 것입니다. MI의 경우 두 가지 옵션이 있습니다.

  • MI 데이터 세트에서 부트 스트랩 분산 풀
  • MI 데이터 세트에서 p- 값 또는 신뢰 한계 풀

첫 번째 옵션은 다시 Rubin의 규칙을 사용합니다. 그러나 θ 에 비정규 샘플링 분포가있는 경우 이것이 문제가된다고 생각합니다 . 이 상황에서 (또는 더 일반적으로 모든 상황에서) 부트 스트랩 된 p- 값을 직접 사용할 수 있습니다. 그러나 MI의 경우 여러 p- 값 또는 신뢰 구간이 생겨 MI 데이터 세트에 풀링되어야합니다.

그래서 내 질문은 : 다중 대치 된 데이터 세트에서 여러 부트 스트랩 된 p 값 (또는 신뢰 구간)을 어떻게 풀링해야합니까?

진행 방법에 대한 제안을 환영합니다. 감사합니다.


아마도 도움이 될 것입니다 : 누락 된 데이터, 대치 및 부트 스트랩 (Efron 1992) statistics.stanford.edu/sites/default/files/BIO%2520153.pdf
DL Dahly

@ DLDahly Hmm, 나는 그 종이에 익숙하지 않지만 아이디어는 먼저 부트 스트랩 을 한 다음 여러 대치를 수행하는 것 같습니다 . OP는 MI 데이터 세트에서 추정치를 부트 스트랩하는 것으로 보입니다.
tchakravarty

@fgnu 실제로 부트 스트랩으로 추정의 총 분산을 구하는 표준 절차는 각 MI 데이터 세트 내에서 분산을 부트 스트랩 한 다음 Rubin의 규칙을 적용하여 MI 데이터 세트에서 부트 스트랩 된 분산을 풀링하는 것입니다.
tomka

답변:


6

두 옵션 모두 정답이라고 생각합니다. 일반적으로 전체 분포를 유지하는 방법 1을 선호합니다.

방법 1의 경우, 각 MI 솔루션 내 에서 매개 변수 부트 스트랩합니다 . 그런 다음 부트 스트랩 분포를 간단히 혼합 하여 최종 밀도를 얻습니다. 이제 측정 간 편차를 포함하는 샘플로 구성됩니다. 그런 다음 신뢰 구간을 확보하기 위해이를 기존 부트 스트랩 샘플로 취급하십시오. 작은 샘플에는 베이지안 부트 스트랩을 사용하십시오. 이 절차를 조사하는 시뮬레이션 작업이 없다는 것을 알고 있으며 실제로 조사해야 할 미해결 문제입니다.m m k × mkmmk×m

방법 2의 경우 Licht-Rubin 절차를 사용하십시오. 여러 대치 된 데이터 세트에서 수행 된 테스트에서 풀링 된 p- 값을 얻는 방법을 참조하십시오 .


+1-목표가 MI 데이터 세트 전체의 추정값의 변동성을 이해하는 것이라면 각 MI 데이터 세트 내에서 부트 스트랩하고 매개 변수의 총 및 MI 특정 분포를 살펴 봅니다.
DL Dahly

@ Stef-van-Buuren DL Dahly가 제안한 것은 MI 세트에서 증폭 된 분산을 풀링하는 것과 같습니다. 이 '간접적 인'접근법보다 방법 1 (모든 부트 스트랩 데이터 세트 추가)을 선호합니까?
tomka

@ 톰카. 필자는 DL Dahly와 똑같이하고 대치 분포 내외를 연구 할 것입니다. 두 가지 유형의 배포판을 통합하려면 어떤 방식 으로든 배포해야합니다. 내 제안은 단순히 그것들을 섞는 것입니다.
Stef van Buuren

6

이것은 내가 익숙한 문헌은 아니지만 이것에 접근하는 한 가지 방법은 부트 스트랩 된 p- 값이라는 사실을 무시하고 다중 대치 된 데이터 세트에서 p- 값을 결합하는 방법에 대한 문헌을 보는 것입니다.

이 경우 Li, Meng, Raghunathan 및 Rubin (1991)이 적용됩니다. 절차는 각 대치 된 데이터 세트의 통계를 기반으로하며 대치로 인한 정보 손실 측정을 사용하여 가중치를 적용합니다. 대치 전반에 걸친 통계의 공동 분포와 관련된 문제가 발생하고 몇 가지 간단한 가정을합니다.

관련 관심의 대상은 Meng (1994) 이다.

최신 정보

다수의 대치 된 데이터 세트에 걸쳐 p- 값을 결합하는 절차 는 Christine Licht, Ch. 4 . 그녀가 돈 루빈 (Don Rubin)이라고 생각하는 아이디어는 본질적으로 p- 값을 정규 분포로 변환하여 z- 통계의 조합에 대한 표준 규칙을 사용하여 MI 데이터 세트에 결합 할 수 있도록하는 것입니다.


내가 Li et al. 올바르게 작동하면 각 MI 세트에서 얻은 통계에 적용됩니다. 예를 들어, 각 세트에서 Pearson Chi²를 얻는 경우 해당 규칙을 적용하여 세트 간 추론에 적용 할 수 있습니다. 예를 들어 Wald 테스트도 수행 할 수 있습니다. 그러나 부트 스트랩의 경우 통계를 얻지 못하지만 풀링 할 통계는 (p- 값만) 있습니다. 그래서 Li et al.에 무언가가 있는지 확실하지 않습니다. 부트 스트랩 된 p에 적용될 수 있습니다.
tomka

1
@tomka 내 답변을 업데이트했습니다.
tchakravarty
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.