답변:
TL; DR : 혼합-효과 모델에서 군집 당 최소 표본 크기는 1입니다. 단, 군집 수가 적절하고 싱글 톤 군집 비율이 "너무 높지 않은"경우
더 긴 버전 :
일반적으로 군집 수는 군집 당 관측치 수보다 중요합니다. 700을 사용하면 분명히 아무런 문제가 없습니다.
작은 클러스터 크기는 특히 계층화 된 샘플링 설계를 따르는 사회 과학 조사에서 매우 일반적이며 클러스터 수준의 샘플 크기를 조사한 연구 기관이 있습니다.
군집 크기를 늘리면 랜덤 효과를 추정하기 위해 통계 력이 증가하지만 (Austin & Leckie, 2018), 군집 크기가 작 으면 심각한 편견이되지 않습니다 (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox) 2005). 따라서 클러스터 당 최소 샘플 크기는 1입니다.
특히 Bell 등 (2008)은 0 ~ 70 % 범위의 단일 클러스터 (단일 관측치 만 포함하는 클러스터)의 비율로 Monte Carlo 시뮬레이션 연구를 수행했으며, 클러스터 수가 많으면 (~ 500) 작은 클러스터 크기는 바이어스 및 유형 1 오류 제어에 거의 영향을 미치지 않았습니다.
또한 모든 모델링 시나리오에서 모델 수렴과 관련된 문제는 거의보고되지 않았습니다.
OP의 특정 시나리오의 경우 첫 번째 인스턴스에서 700 개의 클러스터로 모델을 실행하는 것이 좋습니다. 이것에 명확한 문제가 없다면 클러스터를 병합하지 않을 것입니다. R에서 간단한 시뮬레이션을 실행했습니다.
여기에서는 잔차 분산이 1 인 클러스터 데이터 세트를 생성합니다. 단일 고정 효과도 1, 700 개의 클러스터 중 690 개는 싱글 톤이고 10 개는 관측치가 2 개입니다. 시뮬레이션을 1000 회 실행하고 추정 고정 및 잔차 랜덤 효과의 히스토그램을 관찰합니다.
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
보시다시피, 고정 효과는 매우 잘 추정되는 반면, 잔량 랜덤 효과는 약간 하향 편향되어 있지만 크게 그렇지는 않습니다.
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
OP는 구체적으로 군집 수준 임의 효과의 추정을 언급합니다. 위의 시뮬레이션에서 무작위 효과는 각 Subject
ID 의 값으로 간단히 만들어졌습니다 (100 배 축소). 분명히 이들은 일반적으로 분포되지 않습니다. 이것은 선형 혼합 효과 모델의 가정이지만 클러스터 수준 효과의 (조건부 모드)를 추출하여 실제 Subject
ID 에 대해 플롯 할 수 있습니다 .
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
히스토그램은 정규성에서 다소 벗어나지 만 이는 데이터를 시뮬레이션 한 방식 때문입니다. 추정 된 랜덤 효과와 실제 랜덤 효과 사이에는 여전히 합리적인 관계가 있습니다.
참고 문헌 :
Peter C. Austin & George Leckie (2018) 다단계 선형 및 로지스틱 회귀 모델에서 랜덤 효과 분산 성분을 테스트 할 때 통계적 검정력 및 유형 I 오류율에 대한 군집 수 및 군집 크기의 영향, Journal of Statistical Computation and Simulation, 88 : 16, 3151-3163, DOI : 10.1080 / 00949655.2018.1504945
Bell, BA, Ferron, JM 및 Jromy, JD (2008). 다단계 모델의 클러스터 크기 : 스파 스 데이터 구조가 2 단계 모델의 점 및 간격 추정치에 미치는 영향 . JSM 절차, 설문 조사 방법 섹션, 1122-1129.
Clarke, P. (2008). 그룹 레벨 클러스터링은 언제 무시할 수 있습니까? 스파 스 데이터가있는 다단계 모델과 단일 수준 모델 . 역학 및 지역 사회 건강 저널, 62 (8), 752-758.
Clarke, P., & Wheaton, B. (2007). 클러스터 분석을 사용하여 상황에 맞는 인구 조사에서 데이터 인접성을 해결하여 합성 이웃을 만듭니다 . 사회 학적 방법 및 연구, 35 (3), 311-351.
JJ Maas, CJ, & Hox (2005). 다단계 모델링을위한 충분한 샘플 크기 . 방법론, 1 (3), 86-92.
혼합 모형에서 랜덤 효과는 경험적 Bayes 방법론을 사용하여 가장 자주 추정됩니다. 이 방법론의 특징은 수축입니다. 즉, 추정 된 랜덤 효과는 고정 효과 부분에 의해 설명 된 모형의 전체 평균을 향해 축소됩니다. 수축 정도는 두 가지 구성 요소에 따라 다릅니다.
오차항의 분산 크기와 비교 한 랜덤 효과의 분산 크기입니다. 오차 항의 분산과 관련하여 랜덤 효과의 분산이 클수록 수축 정도는 작아집니다.
클러스터에서 반복 측정 횟수입니다. 더 많은 측정 값을 가진 클러스터에 대한 랜덤 효과 추정값은 더 적은 측정 값을 가진 클러스터에 비해 전체 평균으로 줄어 듭니다.
귀하의 경우 두 번째 요점이 더 관련이 있습니다. 그러나 제안 된 클러스터 병합 솔루션이 첫 번째 지점에도 영향을 줄 수 있습니다.