짧은 대답은 데이터에 클래스 내 에서 양의 상관 관계 가있을 때만 추측이 참 이라는 것 입니다. 경험적으로 말하면, 대부분의 클러스터 된 데이터 세트는 대부분 클래스 내 상관 관계를 보여 주므로 실제로는 추측이 사실입니다. 그러나 클래스 내 상관 관계가 0이면 언급 한 두 경우가 모두 정보를 제공합니다. 클래스 내 상관 관계가 음수 이면 더 많은 피사체에 대해 더 적은 측정을 수행 하는 것이 실제로 덜 유익 합니다. 우리는 실제로 하나의 주제에 대한 모든 측정을 수행하기 위해 (모수 추정치의 분산을 줄이는 한) 선호합니다.
통계적으로 우리가 이것에 대해 생각할 수있는 두 가지 관점이 있습니다 : 당신이 당신의 질문에 언급 한 랜덤 효과 (또는 혼합 ) 모델 또는 여기에서 조금 더 유익한 한계 모델 .
랜덤 효과 (혼합) 모델
각각 m 번 측정 한 피험자 가 있다고 가정 해 봅시다 . 이어서 단순한 랜덤 효과 모델 J 로부터 번째 측정 I 번째 주제는있을
Y I J = β + U 난 + E I , J , β는 고정 절편은 U 제가 분산과 랜덤 자기 효과이다 ( σ 2 u ), e i j 는 관측 수준 오차 항입니다 (분산 σ 2 e 포함)nmji
yij=β+ui+eij,
βuiσ2ueijσ2e) 및 후자의 두 임의의 용어는 독립적입니다.
이 모델에서 는 모집단 평균을 나타내며, 균형 잡힌 데이터 세트 (즉, 각 피험자로부터 동일한 수의 측정 값)를 사용하면 최상의 추정치는 단순히 표본 평균입니다. 따라서이 추정치에 대해 더 작은 분산을 의미하기 위해 "추가 정보"를 취하면 기본적으로 표본 평균의 분산이 n 과 m 에 어떻게 의존하는지 알고 싶습니다 . 약간의 대수로 우리는 그 var를 해결할 수 있습니다
( 1βnm
이 표현을 살펴보면피험자 편차(예 :σ2u>0)가있을 때마다피험자 수 (n)를 늘리면 피험자 당 측정 횟수 (m)는 두 번째 항만 작게 만듭니다. (멀티 사이트 복제 프로젝트를 설계 할 때의 실질적인 영향에 대해서는얼마 전에 쓴이 블로그 게시물을참조하십시오.)
var(1nm∑i∑jyij)=var(1nm∑i∑jβ+ui+eij)=1n2m2var(∑i∑jui+∑i∑jeij)=1n2m2(m2∑ivar(ui)+∑i∑jvar(eij))=1n2m2(nm2σ2u+nmσ2e)=σ2un+σ2enm.
σ2u>0nm
이제 총 관측치 수를 일정하게 유지하면서 또는 n 을 늘리거나 줄이면 어떻게되는지 알고 싶었습니다 . 따라서 우리는 n m 을 상수로 간주 하므로 전체 분산 식은 σ 2 u 와 같습니다.
mnnmn이 가능한 한 클
때 가능한 한 작습니다 (최대n=nm까지,이 경우m=1이므로 각 주제에서 단일 측정을 수행함).
σ2un+constant,
nn=nmm=1
내 짧은 대답은 클래스 내 상관 관계를 언급 했으므로 어디에 적합합니까? 이 간단한 랜덤 효과 모델에서 클래스 내 상관 관계는
(여기서유도의 스케치). 따라서 위의 분산 방정식을
var(1
ρ=σ2uσ2u+σ2e
이것은 위에서 이미 본 것에 대한 통찰력을 실제로 추가하지는 않지만 클래스 내 상관 관계가 선의의 상관 계수이고 상관 계수이기 때문에 궁금해합니다. 클래스 내 상관 관계가 음수이면 음수 일 수 있으며 어떤 결과가 발생합니까?
var(1nm∑i∑jyij)=σ2un+σ2enm=(ρn+1−ρnm)(σ2u+σ2e)
σ2uρ
한계 모델
yij
yij=β+e∗ij,
uieije∗ij=ui+eijuieije∗ijCC=σ2⎡⎣⎢⎢⎢⎢⎢R0⋮00R⋮0⋯⋯⋱⋯00⋮R⎤⎦⎥⎥⎥⎥⎥,R=⎡⎣⎢⎢⎢⎢⎢1ρ⋮ρρ1⋮ρ⋯⋯⋱⋯ρρ⋮1⎤⎦⎥⎥⎥⎥⎥
ρe∗ρρ.)
var(1nm∑i∑jyij)=var(1nm∑i∑jβ+e∗ij)=1n2m2var(∑i∑je∗ij)=1n2m2(n(mσ2+(m2−m)ρσ2))=σ2(1+(m−1)ρ)nm=(ρn+1−ρnm)σ2,
σ2e+σ2u=σ2e∗ij=ui+eij
ρ≥−1/(m−1)m=2ρ=−1m=3ρ=−1/2
nm
(1+(m−1)ρ)×positive constant.
ρ>0mρ<0mnmρ=0mn