클러스터 데이터에 적합한 부트 스트랩 기술?


16

강력한 클러스터링이 존재하는 데이터에 사용할 적절한 부트 스트랩 기술에 대한 질문이 있습니다.

모델이 가장 높은 세션 빈도를 포함하는 치료 에피소드를 얼마나 잘 예측하는지 결정하기 위해 최신 클레임 데이터에서 현재 기준선 모델을 평가하여 보험 청구 데이터에 대한 다변량 혼합 효과 예측 모델을 평가하는 작업을 수행했습니다. 95 번째 백분위 수). 감도, 특이성 및 PPV (positive predictive value)를 사용하여 모델 효과를 평가합니다.

부트 스트랩은 민감도, 특이성 및 PPV 백분율에 대한 신뢰 구간을 구축하는 올바른 방법으로 보입니다. 불행하게도, 청구 데이터가 1) 진료 제공자에 의해 상관되어 있고, 2) 진료 에피소드의 초기 몇 개월 동안 더 자주 방문하는 진료 에피소드로 그룹화되어 (일부 자기 상관이 존재하는 경우) 순진한 부트 스트랩은 적절하지 않다. 움직이는 블록 부트 스트랩 기술의 변형이 여기에 적절합니까?

또는 3 단계 부트 스트랩 절차가 작동합니다. 선택된 에피소드.

어떤 제안에 감사드립니다!

답변:


14

제안하는 두 번째 방법은 합리적으로 보이지만 계층 데이터를 부트 스트랩 할 때는 최상위 수준에서 교체 만하고 나머지 하위 수준에서는 교체하지 않고 샘플링하는 것이 좋습니다. 이것은 Ren et al (2010)의 시뮬레이션에서 볼 수 있습니다 : http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007)는 이론적으로 2 단계 데이터 세트에 대한 서로 다른 접근 방식을 조사했으며 두 수준에서 모두 교체하여 샘플링하는 것은 훌륭한 아이디어가 아니라는 것을 발견했습니다.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

언급 한 자기 상관은 심각한 문제입니다. 반면에, 치료의 에피소드에서 대체하지 않고 선택하면 자기 상관 구조가 보존되므로 그렇게 큰 문제는 아닙니다.


다음 해결책이 적절한 지 궁금합니다.
Rafael

죄송합니다. 이전 의견을 마무리하지 못했습니다. 여기에 : ... 각 군집 수준 (예 : episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp)을 고려한 코드 (id)를 만듭니다. 그런 다음 자기 상관을 다룰 수있는 GEE를 사용하십시오. 나는 어딘가에서 GEE 모델이 클러스터 구조가 존재하더라도 강력한 추정을 제공한다는 것을 읽었습니다. 이 솔루션이 합리적으로 들립니까?
Rafael
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.