5 명의 대상에 대한 100 개의 측정 값이 100 명의 대상에 대한 5 개의 측정 값보다 훨씬 적은 정보를 제공함을 보여줍니다.


21

회의에서 나는 다음 진술을 들었다.

5 명의 피험자에 대한 100 회 측정은 100 명의 피험자에 대한 5 회 측정보다 훨씬 적은 정보를 제공합니다.

이것이 사실이라는 것은 분명하지만, 어떻게 수학적으로 증명할 수 있는지 궁금합니다. 선형 혼합 모델을 사용할 수 있다고 생각합니다. 그러나 나는 그것들을 추정하는 데 사용되는 수학에 대해 많이 모른다. ( lmer4LMM과 GLMM을 bmrs위해 실행 한다.) 이것이 사실 인 예를 보여 줄 수 있습니까? R의 일부 코드보다 일부 수식을 사용하는 것이 좋습니다. 예를 들어 정규 분포 된 임의의 가로 채기와 경사가있는 선형 혼합 모델과 같은 간단한 설정을 가정하십시오.

추신 : LMM과 관련이없는 수학 기반 답변도 괜찮습니다. LMM은 왜 더 많은 주제의 측정 값이 적은 주제의 측정 값보다 나은지 설명하는 자연스러운 도구 인 것처럼 보였지만 잘못되었을 수 있습니다.


3
+1. 가장 간단한 설정은 각 과목마다 자신의 평균 ~ N ( μ , σ 2 a ) 이고이 과목의 각 측정 값이 x ~ N ( a , σ 2 )으로 분포되는 모집단 평균 를 추정하는 작업을 고려하는 것입니다 ) . 각 m 개의 피험자 로부터 n 개의 측정 값을 취하면 , 일정한 곱이 n m = N 인 경우 nm 을 설정하는 최적의 방법은 무엇입니까 ? μaN(μ,σa2)xN(a,σ2)nmnmnm=N
아메바는

샘플의 평균의 편차 최소화의 관점에서 "최적" N 데이터 포인트를 획득.
amoeba는

1
예. 그러나 귀하의 질문에 대해서는 분산을 추정하는 방법에 대해 신경 쓸 필요가 없습니다. 귀하의 질문 (즉, 귀하의 질문에 인용 된 것)은 전 세계 평균 추정하는 것에 대해서만 믿으며 μ최상의 추정량은 표본 의 모든 N = n m 지점 의 총 평균 x¯ 에 의해 주어진다는 것이 분명합니다 . 그러면 μ , σ 2 , σ 2 a , nm이 주어지면 ˉ x 의 분산은 무엇 입니까? 우리가 알고 있다면, 우리는에 관하여를 최소화 할 수있을 것입니다 n은 주어진 n 개의 mN=nmμσ2σa2nmx¯n 제약 nm=N
amoeba는

1
그 중 하나를 도출하는 방법을 모르겠지만, 나는 그것이 분명한 것 같다 동의 : 추정 오류 분산에 모든 것이 가장 것 하나 개의 주제에서 측정; 피험자 분산을 추정하려면 각각 1 회 측정으로 N 개의 다른 피험자 를 갖는 것이 가장 좋을 것입니다 . 그래도 그 평균에 대해 명확하지는 않지만, 직감에 따르면 N 개의 피험자가 1 번 측정하는 것이 가장 좋습니다. 그것이 사실인지 궁금합니다.NNN
amoeba는 Reinstate Monica

2
어쩌면 다음과 같은 것일 수도 있습니다. 개체 별 표본 평균의 분산은 이어야합니다 . 여기서 첫 번째 항은 주제 분산이고 두 번째는 각 주제 평균 추정치의 분산입니다. 과다-주체의 분산 평균 (즉, 총 평균)은 ( σ 2 a + σ 2 / n ) / m = σ 2 a / m + σ 2 / ( n m ) = σ 2 a / m입니다.σa2+σ2/nm = N 일 때 최소화됩니다.
(σa2+σ2/n)/m=σa2/m+σ2/(nm)=σa2/m+σ2/N=σa2/m+const,
m=N
아메바는 모니카

답변:


25

짧은 대답은 데이터에 클래스 내 에서 양의 상관 관계 가있을 때만 추측이 참 이라는 입니다. 경험적으로 말하면, 대부분의 클러스터 된 데이터 세트는 대부분 클래스 내 상관 관계를 보여 주므로 실제로는 추측이 사실입니다. 그러나 클래스 내 상관 관계가 0이면 언급 한 두 경우가 모두 정보를 제공합니다. 클래스 내 상관 관계가 음수 이면 더 많은 피사체에 대해 더 적은 측정을 수행 하는 것이 실제로 덜 유익 합니다. 우리는 실제로 하나의 주제에 대한 모든 측정을 수행하기 위해 (모수 추정치의 분산을 줄이는 한) 선호합니다.

통계적으로 우리가 이것에 대해 생각할 수있는 두 가지 관점이 있습니다 : 당신이 당신의 질문에 언급 한 랜덤 효과 (또는 혼합 ) 모델 또는 여기에서 조금 더 유익한 한계 모델 .

랜덤 효과 (혼합) 모델

각각 m 번 측정 한 피험자 가 있다고 가정 해 봅시다 . 이어서 단순한 랜덤 효과 모델 J 로부터 번째 측정 I 번째 주제는있을 Y I J = β + U + E I , J , β는 고정 절편은 U 제가 분산과 랜덤 자기 효과이다 ( σ 2 u ), e i j 는 관측 수준 오차 항입니다 (분산 σ 2 e 포함)nmji

yij=β+ui+eij,
βuiσu2eijσe2) 및 후자의 두 임의의 용어는 독립적입니다.

이 모델에서 는 모집단 평균을 나타내며, 균형 잡힌 데이터 세트 (즉, 각 피험자로부터 동일한 수의 측정 값)를 사용하면 최상의 추정치는 단순히 표본 평균입니다. 따라서이 추정치에 대해 더 작은 분산을 의미하기 위해 "추가 정보"를 취하면 기본적으로 표본 평균의 분산이 nm 에 어떻게 의존하는지 알고 싶습니다 . 약간의 대수로 우리는 그 var를 해결할 수 있습니다 ( 1βnm 이 표현을 살펴보면피험자 편차(예 :σ2u>0)가있을 때마다피험자 수 (n)를 늘리면 피험자 당 측정 횟수 (m)는 두 번째 항만 작게 만듭니다. (멀티 사이트 복제 프로젝트를 설계 할 때의 실질적인 영향에 대해서는얼마 전에 쓴이 블로그 게시물을참조하십시오.)

var(1nmijyij)=var(1nmijβ+ui+eij)=1n2m2var(ijui+ijeij)=1n2m2(m2ivar(ui)+ijvar(eij))=1n2m2(nm2σu2+nmσe2)=σu2n+σe2nm.
σu2>0nm

이제 총 관측치 수를 일정하게 유지하면서 또는 n 을 늘리거나 줄이면 어떻게되는지 알고 싶었습니다 . 따라서 우리는 n m 을 상수로 간주 하므로 전체 분산 식은 σ 2 u 와 같습니다. mnnmn이 가능한 한 클 때 가능한 한 작습니다 (최대n=nm까지,이 경우m=1이므로 각 주제에서 단일 측정을 수행함).

σu2n+constant,
nn=nmm=1

내 짧은 대답은 클래스 내 상관 관계를 언급 했으므로 어디에 적합합니까? 이 간단한 랜덤 효과 모델에서 클래스 내 상관 관계는 (여기서유도의 스케치). 따라서 위의 분산 방정식을 var(1

ρ=σu2σu2+σe2
이것은 위에서 이미 본 것에 대한 통찰력을 실제로 추가하지는 않지만 클래스 내 상관 관계가 선의의 상관 계수이고 상관 계수이기 때문에 궁금해합니다. 클래스 내 상관 관계가 음수이면 음수 일 수 있으며 어떤 결과가 발생합니까?
var(1nmijyij)=σu2n+σe2nm=(ρn+1ρnm)(σu2+σe2)

σu2ρ

한계 모델

yij

yij=β+eij,
uieijeij=ui+eijuieijeijC
C=σ2[R000R000R],R=[1ρρρ1ρρρ1]
ρeρρ.)

var(1nmijyij)=var(1nmijβ+eij)=1n2m2var(ijeij)=1n2m2(n(mσ2+(m2m)ρσ2))=σ2(1+(m1)ρ)nm=(ρn+1ρnm)σ2,
σe2+σu2=σ2eij=ui+eij

ρ1/(m1)m=2ρ=1m=3ρ=1/2

nm

(1+(m1)ρ)×positive constant.
ρ>0mρ<0mnmρ=0mn

3
ρ<0nmσuβ

3
mρ

1
σu2Σ

2
σu2+σe2/mi

1
mρm
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.