랜덤 효과와 고정 효과의 수학적 차이점은 무엇입니까?


26

인터넷에서 무작위 및 고정 효과의 해석과 관련하여 많은 것을 발견했습니다. 그러나 다음과 같은 소스를 찾을 수 없었습니다.

랜덤 효과와 고정 효과의 수학적 차이점은 무엇입니까?

그것은 모델의 수학적 공식과 매개 변수가 추정되는 방식을 의미합니다.


1
고정 효과는 관절 분포의 평균에 영향을 미치고 무작위 효과는 분산 및 연관 구조에 영향을 미칩니다. "수학적 차이"란 정확히 무엇을 의미합니까? 가능성이 어떻게 변하는 지 묻고 있습니까? 더 자세하게 얘기해 주 시겠어요?
매크로



1
질문은 그려지는 배경을 구별하지 않는 것 같습니다. 패널 데이터 경제학에서의이 용어는 다단계 모델을 사용하는 다른 사회 과학과는 다릅니다. 질문은 더 명확 해져야합니다. 그렇지 않으면, 관련 분야에 다른 정의가 있다는 것을 모르고 어느 배경에서든 여기에 도착하는 사람들에게는 오해의 소지가 있습니다.
luchonacho

답변:


20

랜덤 효과가있는 가장 간단한 모형은 분포 가정을 사용 하여 관측 값 로 주어진 랜덤 효과가있는 일원 분산 분석 모형입니다 .yij

(yijμi)iidN(μi,σw2),j=1,,J,μiiidN(μ,σb2),i=1,,I.

여기서 임의의 효과는 입니다. 이들은 변수가 고정 된 반면 ANOVA 모델에서는 고정 효과가있는 고정 숫자입니다.μi

예를 들어 실험실 의 세 기술자 은 각각 일련의 측정 값을 기록하며 는 기술자 의 번째 측정 값입니다 . 전화 기술자에 의해 생성 된 일련의 "진정한 평균값" ; 이것은 당신이 볼 수있는, 약간 인공적인 매개 변수입니다 기술자하는 평균 값으로 그 / 그녀가 측정의 거대한 시리즈를 기록했다면 얻은 것이다.i=1,2,3yijjiμiiμii

, , 평가에 관심이있는 경우 (예 : 연산자 간 편향 을 평가하기 위해 ) 고정 효과가있는 분산 분석 모형을 사용해야합니다.μ1μ2μ3

모형을 정의하는 분산 및 및 총 분산 (아래 참조)에 관심이있는 경우 임의 효과가있는 분산 분석 모형을 사용해야합니다 . 분산 는 한 기술자가 생성 한 기록의 분산 (모든 기술자에 대해 동일하다고 가정)이며 는 기술자 간 분산이라고합니다. 이상적으로는 기술자를 임의로 선택해야합니다.σw2σb2 σb2+σw2σw2σb2

이 모델은 데이터 샘플에 대한 분산 공식의 분해를 반영합니다. 여기에 이미지 설명을 입력하십시오

총 분산 = 평균 분산 내부 분산 평균+

랜덤 효과가있는 ANOVA 모델에 반영됩니다. 여기에 이미지 설명을 입력하십시오

실제로 의 분포는 주어진 조건부 분포 와 의 분포에 의해 됩니다. 계산해 하나의 "무조건"배포하면 우리가 발견 . ( y i j ) μ i μ i y i j y i jN ( μ , σ 2 b + σ 2 w )yij(yij)μiμiyijyijN(μ,σb2+σw2)

더 나은 사진을 보려면 여기 24 번 슬라이드와 25 번 슬라이드를 참조하십시오 (오버레이를 인식하려면 pdf 파일을 저장해야하며 온라인 버전을 보지 마십시오).


1
(+1) 아주 좋은 인물!
amoeba는 Reinstate Monica가

1
감사합니다 @amoeba, 관성 모멘트에 대한 내 코드는 내 블로그에서 사용할 수 있습니다 : stla.github.io/stlapblog/posts/Variance_inertia.html
Stéphane Laurent

나는 그것을 얻지 못한다. 여러 기술자가 여러 번 측정을 수행 한 경우 왜 ANOVA가 필요합니까? 각 기술자의 결과에 가우시안을 적용하고 각각에 대해 및 를 얻을 수 있습니까? 이 문제를 해결하는 방법으로 무엇을 할 수 있습니까? σμσ
TheChymera

@TheChymera ANOVA는 공통 의 가정입니다 . 이 가정으로 신뢰 구간이 짧아집니다. 그러나 귀하의 의견은 공통 분산을 갖는 분산 분석과 다른 분산을 갖는 분산 분석을 사용하는 이유에 관한 것입니다. 이것은 실제로 여기서 주제가 아닙니다. σ
Stéphane Laurent

@ StéphaneLaurent 어떤 ANOVA가 일반적인 의 가정 입니까? -또한,이 는 어떤 공통점이 있습니까? "연산자 사이의 편향을 평가하기 위해 μ1, μ2, μ3 평가에 관심이 있다면 고정 효과가있는 ANOVA 모델을 사용해야합니다." 고정 효과가있는 ANOVA 방법의 공식은 무엇이며, 에 대한 정보없이 에 대해 어떻게 니까? 또한 계산에 필요한 정보를 모두 제공하지 않고 의 추정치를 어떻게 줄 수 있습니까? (그리고 랜덤 효과 모델의 경우도 마찬가지)σ μ i σ 2 b μ i σ 2 wσσμiσb2μiσw2
TheChymera

16

기본적으로, 요인을 랜덤으로 모형화하는 경우 가장 분명한 차이점은 효과가 공통 정규 분포에서 도출 된 것으로 가정한다는 것입니다.

예를 들어 성적에 관한 일종의 모델이 있고 다른 학교에서 온 학생 데이터를 고려하고 임의의 요인으로 학교를 모델링하려는 경우 이는 학교 별 평균이 정규 분포로 가정된다는 것을 의미합니다. 이는 두 가지 변동 원인이 모델링이라는 것을 의미합니다. 학교 내 학생의 변동성과 학교 간의 변동입니다.

이를 통해 부분적 풀링이 발생 합니다. 두 가지 극단을 고려하십시오.

  1. 학교는 아무런 영향을 미치지 않습니다 (학교 변동 사이에 0이 있음). 이 경우 학교를 설명하지 않는 선형 모델이 최적입니다.
  2. 학교 변동성은 학생 변동보다 큽니다. 그런 다음 기본적으로 학생 수준 (# 샘플 미만) 대신 학교 수준에서 작업해야합니다. 이것은 기본적으로 고정 효과를 사용하여 학교를 설명하는 모델입니다. 학교당 샘플 수가 적 으면 문제가 될 수 있습니다.

두 수준의 변동성을 추정함으로써 혼합 모델은이 두 가지 접근 방식간에 현명한 절충안을 만듭니다. 특히 학교당 # 학생 수가 크지 않은 경우 이는 모델 2의 전체 평균 평균으로 모델 2에 의해 추정 된 개별 학교에 대한 영향이 줄어들게됨을 의미합니다.

모델에 따르면 두 학생이 포함 된 학교가 하나 있는데 학교 인구에 대해 "정상적인"것보다 낫다면이 효과의 일부는 선택에 운이 좋았던 학교에 의해 설명 될 수 있기 때문입니다 두 학생 중 이것은 맹목적으로 만들지 않으며 학교 내 변동의 추정치에 따라 그렇게합니다. 이것은 또한 적은 수의 샘플을 가진 효과 레벨이 큰 학교보다 전체 평균을 향해 더 강력하게 끌어 당겨짐을 의미합니다.

중요한 것은 임의 요인 수준에서 교환이 필요하다는 것입니다. 즉,이 경우 학교는 (귀하의 지식으로) 교환 가능하고 어떤 종류의 ID 이외의 다른 학교를 구별 할 수있는 것은 아무것도 없습니다. 추가 정보가있는 경우이를 추가 요인으로 포함시킬 수 있으며, 설명 된 다른 정보에 대해 학교가 조건부로 교환 할 수있는 것으로 충분합니다.

예를 들어, 뉴욕에 거주하는 30 세의 성인은 성별에 따라 조건부 교환이 가능하다고 가정하는 것이 합리적입니다. 더 많은 정보 (연령, 민족성, 교육)가있는 경우 해당 정보도 포함하는 것이 좋습니다.

OTH 하나의 대조군과 세 개의 다른 질병 그룹을 연구했다면 특정 질병을 교환 할 수 없으므로 무작위로 그룹을 모델링하는 것은 의미가 없습니다. 그러나 많은 사람들이 축소 효과를 너무 좋아하여 여전히 임의 효과 모델을 주장하지만 다른 이야기입니다.

수학에 너무 많이 들지 않았지만 기본적으로 차이점은 무작위 효과 모델이 학교 수준과 학생 수준 모두에서 정규 분포 오차를 추정했지만 고정 효과 모델은 오류가 있다는 것입니다 학생들의 수준. 특히 이것은 각 학교마다 공통 분포로 다른 수준과 연결되지 않은 자체 수준을 가지고 있음을 의미합니다. 이는 고정 모델이 원본 데이터에 포함되지 않은 학교 학생에게 외삽을 허용하지 않는 반면, 랜덤 효과 모델은 학생 수준과 학교 수준 변동성의 합인 변동성을 갖는 것입니다. 가능성에 특별히 관심이 있다면 우리는 그 일을 할 수 있습니다.


1
(+1) 대단한 답변. 혼란스러운 오타를 발견했습니다. "제외됨"은 "포함됨"으로 표시되어야합니다. 그외에도 : 학교를 무작위 대 고정 효과로 취급하는 것 사이에 실제적인 차이는 무엇입니까? 고정으로 취급하면 새로운 학교의 학생의 성과를 예측할 수 없지만 이용 가능한 데이터의 차이점은 어떻습니까? 다른 고정 효과는 학생의 성별, 인종 및 체중 (무엇이든)이라고 가정 해 봅시다. 학교를 무작위 / 고정으로 취급하는 것이 주요 효과 또는 관심있는 상호 작용의 힘에 영향을 줍니까? 다른 차이점이 있습니까?
amoeba는

3
@amoeba 일관성을 제쳐두고, 학생 수준 계수에 대한 MSE는 무엇보다도 학생 X와 임의 효과 간의 상관 수준, 군집 수 등에 따라 임의의 효과 대 고정 효과 모델에서 어느 정도 효율적일 수 있습니다. . 클라크와 린저 2012 시뮬레이션 결과가 있습니다.
conjugateprior

1
@conjugateprior 와우,이 의견에 감사드립니다! 나는 연결된 논문을 읽었으며 내가 본 문제에 대한 가장 명확한 설명입니다. 나는 고정 / 임의 효과에 대해 CV에서 다양한 스레드를 읽는 데 상당한 시간을 보냈지 만 언제 서로를 사용 해야하는지, 왜 그런지 알 수 없었습니다. C & L을 읽으면 많은 것들이 훨씬 더 명확 해졌습니다. 이 논문 및 / 또는 관련 논문의 요약을 제시하는 이력서 어딘가에 답을 쓰고 싶습니까? 나는 가장 투표가 많은 [혼합 모델] 스레드에서 현상금을 실행 중이며 다른 스레드도 기꺼이 수상 할 것입니다.
아메바는

@Erik, "부분 학교"를 "부분 수영장"으로 수정하도록 편집했습니다. 나는 그것이 오타라고 생각하지만 의도 된 말장난이라면 사과합니다!
amoeba는

2

에코 랜드에서, 그러한 영향은 관찰되지 않은 개인별 절편 (또는 상수)이지만 패널 데이터를 사용하여 추정 할 수 있습니다 (시간이 지남에 따라 동일한 단위로 반복 된 관찰). 고정 효과 추정 방법은 단위 별 절편과 독립 설명 변수 사이의 상관을 허용합니다. 무작위 효과는 그렇지 않습니다. 보다 유연한 고정 효과를 사용하는 비용은 성별, 종교 또는 인종과 같이 시간이 변하지 않는 변수에 대한 계수를 추정 할 수 없다는 것입니다.

NB 다른 분야에는 자체 용어가 있으므로 다소 혼란 스러울 수 있습니다.


(-1) 이것은 고정 효과와 무작위 효과의 수학적 차이에 대해서는 아무 것도 말하지 않습니다
Macro

1
@ 매크로 합의. 그 전에 경제 용어가 OP가 찾고있는 것인지 아는 것이 도움이 될 것입니다. 나는 그것에 대해 더 분명해야했다.
Dimitriy V. Masterov

승인. 이 경우에 의견이 더 적절할 수 있습니다.
매크로

"유연한 고정 효과를 사용하는 데 드는 비용은 시변이 변수에 대한 계수를 추정 할 수 없다는 것"은 사실이 아닙니다. 방금 개인과 시간이 변하지 않는 단일 이진 예측 변수에 대한 측정을 반복 한 시뮬레이션을 수행했습니다. ID에 대한 고정 효과와 이진 예측 변수에 대한 고정 효과를 포함하면 이진 예측 변수에 대한 계수를 추정 할 수 있습니다 (반복 된 측정이 많지 않으면 추정치에는 큰 표준 오류).
매크로

3
앤드류 겔먼 (경제학자 아님)은 그의 ANOVA 논문에 stat.columbia.edu/~gelman/research/published/banova7.pdf 라는 5 가지 뚜렷한 정의를 제시 합니다.
Dimitriy V. Masterov

2

표준 소프트웨어 패키지 (예 : R 's lmer)에서 기본적인 차이점은 다음과 같습니다.

  • 고정 효과는 최대 가능성으로 추정됩니다 (선형 모델의 경우 최소 제곱)
  • 랜덤 효과는 경험적 베이에 의해 추정됩니다 (수축 파라미터가 최대 가능성에 의해 선택되는 선형 모델의 경우 약간의 수축이있는 최소 제곱)

베이지안 인 경우 (예 : WinBUGS) 실제 차이는 없습니다.


3
나는 아무런 차이가 없다는 것에 강력히 동의하지 않습니다. 모든 계수가 별도의 사전 설정 값을 갖는 베이지안 고정 효과 모델 또는 하이퍼 파라미터가있는 베이지안 혼합 모델에 적합 할 수 있습니다.
Erik

베이지안 인 경우 차이점은 다음과 같습니다 .
Junjuprior

@ 시몬 그것은 정확하고 바삭한 대답입니다. 오래 전부터 언급 했어야 했어요.
Subhash C. Davar

-3

@Joke 고정 효과 모델은 연구 (또는 실험)에 의해 생성 된 효과 크기가 고정됨을 의미합니다. 즉, 중재에 대한 반복 측정은 동일한 효과 크기를 나타냅니다. 아마도 실험의 외부 및 내부 조건은 변하지 않습니다. 다른 조건 하에서 여러 번의 시험 및 / 또는 연구가있는 경우, 효과 크기가 다릅니다. 효과 크기 세트에 대한 평균 및 분산의 모수 추정치는 이들이 고정 효과라고 가정하거나 랜덤 효과 (슈퍼 모집단으로부터 실현) 인 것으로 가정하여 실현 될 수 있습니다. 나는 수학적 통계의 도움으로 해결할 수 있다고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.