간단히 말해서 고정 효과, 임의 효과 및 혼합 효과 모델의 차이점을 어떻게 설명합니까 (단순한 예일 경우)?
간단히 말해서 고정 효과, 임의 효과 및 혼합 효과 모델의 차이점을 어떻게 설명합니까 (단순한 예일 경우)?
답변:
통계 학자 앤드류 겔먼 (Andrew Gelman) 은 '고정 효과'와 '무작위 효과'라는 용어 는 누가 그것을 사용하는지에 따라 다양한 의미를 가진다고 말합니다 . 아마도 5 가지 정의 중 하나를 귀하의 사례에 적용 할 수 있습니다. 일반적으로 저자가 사용하고있는 확률 모델을 설명하는 수식을 찾거나 (읽을 때) 사용하려는 전체 확률 모델을 작성하는 방법 (쓰기시)을 사용하는 것이 좋습니다.
여기에 우리가 본 다섯 가지 정의가 있습니다 :
고정 효과는 개인마다 일정하며 무작위 효과는 다양합니다. 예를 들어, 성장 연구에서 랜덤 절편 및 고정 기울기 가진 모델 은 다른 개인 평행선 또는 모델에 해당합니다 . Kreft와 De Leeuw (1998)는 고정 계수와 랜덤 계수를 구분합니다. b i y i t = a i + b t
그 자체로 흥미가 있거나 기본 인구에 관심이 있다면 무작위로 효과가 고정됩니다. Searle, Casella 및 McCulloch (1992, 1.4 절)는이 차이점에 대해 깊이 탐구합니다.
“표본이 모집단을 소진하면 해당 변수가 고정됩니다. 표본이 모집단의 작은 (즉, 무시할만한) 부분 인 경우 해당 변수는 임의적입니다.”(Green and Tukey, 1960)
"효과가 랜덤 변수의 실현 된 값이라고 가정하면 랜덤 효과라고합니다."(LaMotte, 1983)
고정 효과는 최소 제곱 (또는 일반적으로 최대 가능성)을 사용하여 추정하고 무작위 효과는 축소를 통해 추정됩니다 (1991 년 Robinson 용어에서 "선형 비 편향 예측"). 이 정의는 다단계 모델링 문헌 (예 : Snijders and Bosker, 1999, 섹션 4.2 참조)과 계량 경제학에서 표준입니다.
(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
Gelman과 Hill과 같은 좋은 책들이 있습니다 . 다음은 본질적으로 그들의 관점에 대한 요약입니다.
우선, 용어에 너무 익숙해 져서는 안됩니다. 통계에서 전문 용어는 모델 자체에 대한 수학적 이해를 대신 할 수 없습니다. 랜덤 및 혼합 효과 모델의 경우 특히 그렇습니다. "혼합"은 모델에 고정 효과와 임의 효과가 모두 있음을 의미하므로 고정 효과와 임의 효과의 차이에 중점을 두겠습니다.
범주 값에 따라 관측치를 그룹으로 나누는 범주 형 예측 변수가있는 모형이 있다고 가정 해 봅시다. * 해당 예측 변수와 관련된 모형 계수 또는 "효과"는 고정적이거나 무작위 일 수 있습니다. 둘 사이의 가장 중요한 실제 차이점은 다음과 같습니다.
랜덤 효과는 부분 풀링으로 추정되지만 고정 효과는 그렇지 않습니다.
부분 풀링은 그룹에 데이터 포인트가 거의없는 경우 그룹의 효과 추정치가 다른 그룹의 더 풍부한 데이터를 부분적으로 기반으로한다는 것을 의미합니다. 이는 모든 그룹을 완전히 풀링하여 그룹 수준의 변동을 가릴 수있는 효과를 추정하고 모든 그룹에 대한 효과를 완전히 개별적으로 추정하여 효과를 추정하는 것 사이의 절충이 될 수 있습니다.
랜덤 효과는 단순히 범용 통계 모델로서 부분 풀링 기술의 확장입니다. 이를 통해 여러 예측 변수, 혼합 된 연속 및 범주 형 변수 및 복잡한 상관 관계 구조를 포함한 다양한 상황에 아이디어를 원칙적으로 적용 할 수 있습니다. (그러나 강력한 힘을 가진 것은 큰 책임이 따른다. 모델링과 추론의 복잡성이 크게 증가 하고 피해야 할 상당한 정교함을 요구 하는 미묘한 편견 이 생길 수있다.)
랜덤 효과 모델에 동기를 부여하기 위해 스스로에게 물으십시오. 왜 부분 풀을 하시겠습니까? 작은 하위 그룹이 일반적인 평균 효과를 가진 더 큰 그룹의 일부라고 생각하기 때문일 수 있습니다. 부분 군 평균은 큰 그룹 평균에서 약간 벗어날 수 있지만 임의의 양 만큼은 아닙니다. 이 아이디어를 공식화하기 위해 편차는 일반적으로 가우시안 분포를 따릅니다. 여기에서 랜덤 효과의 "임의"가 발생합니다. 우리는 부모로부터의 하위 그룹의 편차가 랜덤 변수의 분포를 따른다고 가정합니다. 일단이 아이디어를 염두에두면 혼합 효과 모델 방정식이 자연스럽게 따릅니다.
불행하게도, 혼합 효과 모델 사용자는 임의 효과와 고정 효과와의 차이점에 대해 잘못된 선입견을 가지고 있습니다. 사람들은 "무작위"를 듣고 어떤 것이 "무작위로 샘플링"될 때 임의의 효과가 사용되어야하는 반면 고정 된 효과는 무언가가 "고정"될 때 사용되어야하는 것과 같이 모델링되는 시스템에 대해 매우 특별한 무언가를 의미한다고 생각합니다. 그러나 모델 계수가 분포에서 나온다고 가정 할 때 특히 랜덤 한 것은 없습니다. 능선 회귀 모델 계수에 적용되는 페널티 와 유사한 부드러운 제약 조건 입니다. 임의의 효과를 사용하거나 사용하지 않으려는 상황이 많이 있으며 "고정"과 "무작위"의 구분과 관련이있는 것은 아닙니다.
불행하게도,이 용어들에 의해 야기 된 개념 혼동 은 상충되는 정의의 확산으로 이어졌다 . 이 링크의 다섯 가지 정의 중 일반적인 경우에는 # 4 만 완전히 맞지만 완전히 정보가 없습니다. 그 정의가 실제 작업에서 의미하는 바를 이해하려면 전체 논문과 책을 읽거나이 게시물을 읽지 않아야합니다.
랜덤 효과 모델링이 유용한 경우를 살펴 보겠습니다. 우편 번호로 평균 미국 가구 소득을 추정한다고 가정하십시오. 가구 소득 및 우편 번호에 대한 관찰이 포함 된 대규모 데이터 세트가 있습니다. 일부 우편 번호는 데이터 세트에 잘 표시되어 있지만 다른 우편 번호는 몇 세대뿐입니다.
초기 모델의 경우 대부분의 ZIP에서 평균 수입을 얻습니다. ZIP에 대한 데이터가 많을 때 잘 작동하지만 샘플링이 잘못된 ZIP에 대한 추정치에는 편차가 커집니다. 수축 추정기 (일명 부분 풀링)를 사용하여이를 완화 할 수 있습니다. 이는 모든 우편 번호의 평균 수입으로 극단적 인 가치를 제공합니다.
그러나 특정 ZIP에 대해 얼마나 많은 수축 / 풀링을 수행해야합니까? 직관적으로 다음에 의존해야합니다.
우편 번호를 임의의 효과로 모델링하는 경우 모든 우편 번호의 평균 수입 추정치에는 위의 모든 요소를 고려하여 통계적으로 잘 알려진 축소가 적용됩니다.
가장 좋은 부분은 랜덤 및 혼합 효과 모델이 모델의 모든 랜덤 효과에 대해 변동성 추정치 인 (4)를 자동으로 처리한다는 것입니다. 이것은 한눈에보기보다 어렵습니다. 각 ZIP에 대해 표본 평균의 분산을 시도 할 수 있지만, 다른 ZIP에 대한 추정값 간의 분산 중 일부는 샘플링 분산이기 때문에 이것은 편향되어 있습니다. 랜덤 효과 모델에서 추론 프로세스는 표본 추출 분산을 설명하고 그에 따라 분산 추정값을 축소합니다.
(1)-(4)를 고려한 랜덤 / 혼합 효과 모델은 저 표본 그룹에 대한 적절한 수축을 결정할 수 있습니다. 또한 다양한 예측 변수가있는 훨씬 복잡한 모델을 처리 할 수 있습니다.
이것이 계층 적 베이지안 모델링처럼 들리면, 당신이 옳습니다. 가까운 친척이지만 동일하지는 않습니다. 혼합 효과 모델은 잠재적이고 관찰되지 않은 매개 변수에 대한 분포를 표시한다는 점에서 계층 적이지만 최상위 하이퍼 파라미터에 적절한 사전이 주어지지 않기 때문에 일반적으로 완전히 베이지안이 아닙니다. 예를 들어, 위의 예에서 우리는 주어진 ZIP의 평균 수입을 정규 분포의 표본으로 취급 할 것입니다. 혼합 효과 피팅 프로세스에 의해 알 수없는 평균과 시그마가 추정됩니다. 그러나 (베이지안이 아닌) 혼합 효과 모델은 일반적으로 알 수없는 평균 및 시그마에 대한 사전을 가지지 않으므로 완전히 베이지안이 아닙니다. 그러나 적당한 크기의 데이터 세트를 사용하면 표준 혼합 효과 모델과 완전 베이지안 변형이 종종 매우 유사한 결과를 제공합니다.
*이 주제에 대한 많은 치료가 "그룹"의 좁은 정의에 초점을 맞추고 있지만 개념은 실제로 매우 유연합니다. 이는 공통된 속성을 공유하는 일련의 관측 일뿐입니다. 그룹은 한 사람 또는 여러 학교의 여러 사람들, 또는 한 학군의 여러 학교, 또는 단일 종류의 과일 또는 여러 종류의 같은 수확에서 얻은 여러 종류의 채소 또는 여러 수확에 대한 여러 관찰로 구성 될 수 있습니다 같은 범주의 야채 등을 포함합니다. 범주 형 변수는 그룹화 변수로 사용할 수 있습니다.
나는 혼합 모델에 대한 책 장에서 이것에 대해 썼다 ( Fox, Negrete-Yankelevich, Sosa 2014의 13 장 ). 관련 페이지 (311-315 페이지)는 Google 도서에서 볼 수 있습니다 . 나는 그 질문이 "고정 효과와 무작위 효과의 정의는 무엇인가?" "혼합 모델"은 둘 다를 포함하는 모델 일뿐입니다. 내 토론은 공식적인 정의 (위의 @ JohnSalvatier의 답변으로 연결된 Gelman 논문을 참조)에 대해 조금 덜하고 실제 속성과 유틸리티에 대해 더 많이 설명합니다. 다음은 몇 가지 발췌문입니다.
랜덤 효과에 대한 전통적인 관점은 일부 관측치가 서로 연관되어있을 때 정확한 통계 테스트를 수행하는 방법입니다.
또한 랜덤 효과를 그룹화 변수 내에서 다른 수준의 정보를 결합하는 방법으로 생각할 수 있습니다.
랜덤 효과는 (1) 많은 레벨 (예 : 많은 종 또는 블록), (2) 각 레벨에 대해 상대적으로 적은 데이터 (대부분의 레벨에서 여러 샘플이 필요하지만), (3) 고르지 않은 경우 특히 유용합니다. 레벨에 따른 샘플링 (박스 13.1).
상용 주의자와 베이지안은 임의의 효과를 다소 다르게 정의하여 사용 방식에 영향을줍니다. 상용 주의자들은 무작위 효과를 더 큰 집단에서 무작위 로 선택한 수준의 범주 형 변수로 정의합니다.예를 들어, 고유종 목록에서 무작위로 선택된 종. 베이지안은 랜덤 효과를 [모두] 같은 분포에서 추출한 변수 세트로 정의합니다. 잦은 정의는 철학적으로 일관성이 있으며이를 주장하는 연구자 (검토 자 및 감독자 포함)를 만날 수 있지만 실제로 문제가 될 수 있습니다. 예를 들어, 종 목록이 더 많은 개체군의 표본이 아니므로 연도를 임의의 효과로 사용하기 때문에 현장에서 모든 종을 관찰 한 경우 종을 무작위 효과로 사용할 수 없습니다. 연구자들은 무작위로 표본 추출 된 해에 실험을하는 경우가 거의 없기 때문에 대개 연속 된 연속 연도 또는 현장에 들어갈 수있는 우연한 해를 사용합니다.
임의 효과는 특정 수준 간의 값 차이를 테스트하는 대신 값 분포 (즉, 다른 수준의 반응 값 사이의 편차)에 대해 추론하는 데 관심이있는 예측 변수로 설명 할 수도 있습니다.
사람들은 때때로 임의의 효과가“관심이없는 요소”라고 말합니다. 항상 그런 것은 아닙니다. 생태 실험 (사이트 간 변동이 대개 성가신 경우) 인 경우가 많지만, 예를 들어 유전자형 간 변동이 자연 선택을위한 원료 인 진화 연구 또는 인구 통계 연구에서 종종 큰 관심을 끌고 있습니다. 매년 변동이 장기 성장률을 낮추는 곳. 어떤 경우에는 고정 된 효과를 사용하여 무관심한 변화를 제어하는데, 예를 들어 질량을 공변량으로 사용하여 신체 크기의 효과를 제어합니다.
또한 "조건부 모드의 (예측 된) 값에 대해 아무 말도 할 수 없습니다."라는 말을들을 수 있습니다. 이는 사실이 아닙니다. 값이 0인지, 아니면 0인지에 대한 귀무 가설을 공식적으로 테스트 할 수 없습니다. 서로 다른 두 수준의 값은 동일하지만 예측 된 값을보고 예측 된 값의 표준 오차를 계산하는 것조차 여전히 완벽하게 합리적입니다 (예 : 그림 13.1의 조건부 모드 주변의 오차 막대 참조).
나는 그룹화 변수가 많은 측정 수준을 가질 때 임의의 효과가 가장 유용하다고 위에서 말했다. 반대로 그룹화 변수의 수준이 너무 낮은 경우 무작위 효과는 일반적으로 효과가 없습니다. 그룹화 변수의 수준이 5 개 미만인 경우 일반적으로 임의 효과를 사용할 수 없으며, 매우 작은 표본에서 분산을 추정하려고하기 때문에 임의 효과 분산 추정값이 8 개 미만의 수준에서는 불안정합니다.
고정 효과 : 실험자가 직접 조작하고 종종 반복 할 수있는 것 (예 : 약물 투여-한 그룹은 약물을, 한 그룹은 위약을 얻습니다).
무작위 효과 : 무작위 변이 원 / 실험 단위, 예를 들어, 임상 시험을 위해 모집단에서 (무작위로 추첨 된) 개인. 랜덤 효과는 변동성을 추정합니다
혼합 효과 :이 경우 고정 효과는 모집단 수준 계수를 추정하는 반면, 임의 효과는 효과에 대한 반응으로 개인차를 설명 할 수 있습니다. 예를 들어, 각 경우마다 다른 경우에 약물과 위약을받는 효과는 약물의 효과를 추정하며, 임의의 효과 조건은 각 사람이 약물에 다르게 반응 할 수 있도록합니다.
혼합 효과의 일반적인 범주-반복 측정, 세로, 계층, 분할 플롯.
나는에서이 질문에 와서 여기에 , 가능한 중복.
이미 몇 가지 훌륭한 답변이 있지만 받아 들여진 답변에 언급 된 것처럼 용어에는 여러 가지 (그러나 관련 된) 용도가 있으므로 계량 분석에 채택 된 관점을 제시하는 것이 중요 할 수 있습니다. .
선형 패널 데이터 모델 인 소위 오류 구성 요소 모델)을 고려하십시오. 여기서 는 때때로 시간이 지남에 따라 일정한 오류 구성 요소 인 개별 별 이종이라고합니다. 다른 오류 구성 요소 는 "idiosyncratic"이며 단위와 시간에 따라 다릅니다.α i
랜덤 효과 접근 방식을 사용하는 이유는 의 존재 가 "구형"이 아닌 오차 공분산 행렬 (여기서 항등 행렬의 배수는 을 초래하므로 임의 효과와 같은 GLS 유형 접근 방식은 OLS보다 더 효율적입니다).
그러나 가 회귀 와 상관 관계 가있는 경우, 많은 전형적인 응용에서와 같이 표준 교과서 (적어도 계량 경제학 교과서의 표준) 랜덤 효과 추정기의 일관성에 대한 기본 가정 중 하나입니다. , 즉. 이 위반되었습니다. 그런 다음 이러한 절편에 효과적으로 맞는 고정 효과 방식이 더 설득력이 있습니다.X i t C o v ( α i , X i t ) = 0
다음 그림은이 점을 설명하기위한 것입니다. 와 사이의 원시 상관 관계 는 양수입니다. 그러나, 하나 개의 단위 (색상)에 속하는 관측은 음의 관계를 전시 -이이 반응하기 때문에 우리가 확인하고자하는 것입니다 의 변화에 .X y i t X i t
또한, 와 사이에는 상관 관계가 있습니다. 전자가 개인별 인터셉트 인 경우 (즉, 때 단위 대한 예상 값 ), 예를 들어 하늘색 패널 장치는 갈색 장치보다 훨씬 작습니다. 동시에, 밝은 파란색 패널 단위는 훨씬 작은 회귀 값 갖 .X i t i X i t = 0 X i t
따라서 풀링 된 OLS는 여기서 잘못된 전략 일 것 입니다.이 추정기는 기본적으로 색상을 무시 하기 때문에 의 양의 추정값을 초래하기 때문입니다 . RE는 가중 버전의 FE와 사이의 "시간"-평균 을 서로 회귀하는 추정기 사이의 바이어스 입니다. 그러나 후자는 와 의 상관 관계가 필요하지 .t α i X i t
그러나이 편향 은 FE의 가중치가 1에 가까워 질수록 단위당 기간의 수 ( 아래 코드에서 )가 증가함에 따라 사라집니다 (예 : Hsiao, 패널 데이터 분석, 섹션 3.3.2 참조).m
다음은 데이터를 생성하고 양의 RE 추정값과 "올바른"음의 FE 추정값을 생성하는 코드입니다. (이에 따르면 RE 추정치는 종종 다른 종자에 대해서도 부정적 일 수있다 (위 참조).)
library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12
step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
X[,i] = runif(m,i,i+1)
X[,i] = rnorm(m,i)
y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)
}
stackX = as.vector(X)
stackY = as.vector(y)
darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)
unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX)
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")
출력 :
> fe
Model Formula: stackY ~ stackX
Coefficients:
stackX
-1.0451
> re
Model Formula: stackY ~ stackX
Coefficients:
(Intercept) stackX
18.34586 0.77031
이 차이는 베이 아 이외의 통계 상황에서만 의미가 있습니다. 베이지안 통계에서 모든 모형 모수는 "무작위"입니다.
계량 경제학에서 항은 일반적으로 모형이 형식 인 일반 선형 모형에 적용됩니다.
랜덤 효과 : 때 ,
해결 된 효과 : When .
에서는 선형 모델 랜덤 효과의 존재는 OLS 추정기의 불일치가 발생하지 않는다. 그러나 임의의 효과 추정기 (예 : 실현 가능한 일반 최소 제곱)를 사용하면보다 효율적인 추정기가 만들어집니다.
에서는 비선형 모델 등의 프로 빗 토비트로서, ... 임의의 효과의 존재는 일반적으로 불일치 추정 될 것이다. 랜덤 효과 추정기를 사용하면 일관성이 복원됩니다.
선형 및 비선형 모델의 경우 고정 효과로 인해 바이어스가 발생합니다. 그러나 선형 모형에는 변환 된 데이터의 OLS가 일관된 추정치를 생성하는 데 사용할 수있는 변환 (예 : 첫 번째 차이 또는 무시)이 있습니다. 비선형 모델의 경우 변환이 존재하는 몇 가지 예외가 있으며 고정 효과 로짓 이 한 예입니다.
예 : 랜덤 효과 프로 빗. 가정
관찰 된 결과는
풀링 최대 우도 추정기 의 샘플 평균을 최소화
물론 여기에서 로그와 제품은 단순화되지만 교육 학적 이유로 방정식을 랜덤 효과 추정기와 비교할 수 있습니다.
예를 들어 랜덤 노멀의 드로우를 취하고 각각에 대한 가능성을 평가 함으로써 랜덤 화에 의해 적분을 근사화 할 수 있습니다 .
직관은 다음과 같습니다 . 각 관측치가 어떤 유형 인 인지 모릅니다 . 대신, 우리는 일련의 추첨에 대한 시간 경과에 따른 우도의 곱을 평가합니다. 가장 가능성있는 관측 유형 는 모든 기간에서 가장 높은 가능성을 가지므로 관측의 시퀀스에 대한 가능성 기여를 지배 할 것 입니다. i T
공식적인 정의는 아니지만 다음 슬라이드를 좋아합니다. 혼합 모델과 사회학자가 Daniel Ezra Johnson의 모델을 사용해야하는 이유 ( 미러 ). 슬라이드 4에는 간단한 요약이 제공됩니다. 심리 언어학 연구에 주로 초점을 맞추었지만 첫 단계로 매우 유용합니다.
랜덤 및 고정 효과 모델에 대한 또 다른 매우 실용적인 관점은 패널 데이터 에서 선형 회귀 분석을 수행 할 때 계량 경제학에서 비롯됩니다 . 개별 / 그룹당 여러 샘플이있는 데이터 세트에서 설명 변수와 결과 변수 간의 연관성을 추정하는 경우 사용하려는 프레임 워크입니다.
패널 데이터의 좋은 예는 다음과 같은 개인의 연간 측정입니다.
운동과 체중 변화의 관계를 이해하려는 경우 다음과 같은 회귀 분석을 설정합니다.
e x e r c i s e i t + β 1 g e n d e r i + α i + ϵ i t
이와 같은 설정에서는 내생의 위험이 있습니다. 이는 측정되지 않은 변수 (예 : 결혼 여부)가 운동 및 체중 변화와 관련이있을 때 발생할 수 있습니다. 이 프린스턴 강의 에서 16 페이지에 설명 된 것처럼 랜덤 효과 (AKA 혼합 효과) 모델은 고정 효과 모델보다 더 효율적입니다. 그러나 측정되지 않은 변수가 체중 변화에 미치는 영향 중 일부는 운동에 영향을 잘못된 생성 하고 잠재적으로 유효한 것보다 통계적 유의성이 더 높습니다. 이 경우 랜덤 효과 모델은 의 일관성있는 추정기가 .β 0
고정 효과 모델 (가장 기본적인 형식)은 시간이 지남에 따라 일정하지만 회귀 방정식의 각 개인 ( )에 대해 별도의 절편 항을 명시 적으로 포함하여 개인마다 달라지는 측정되지 않은 변수에 대해 제어합니다 . 이 예에서는 성별에 따른 혼란스러운 영향과 측정되지 않은 모든 혼란스러운 자 (결혼 상태, 사회 경제적 상태, 교육 성취도 등)를 자동으로 제어합니다. 실제로는 성별을 회귀에 포함 수 없으며 가 와 동일하기 때문에 고정 효과 모델로 을 추정 할 수 없습니다 .β 1 g e n d e r i α i
따라서 중요한 질문은 어떤 모델이 적합한 지 결정하는 것입니다. 대답은 하우스 만 테스트 입니다. 이를 사용하기 위해 고정 및 랜덤 효과 회귀 분석을 수행 한 다음 Hausman Test를 적용하여 계수 추정치가 크게 다른지 확인합니다. 그들이 발산하면 내 생성이 작용하고 고정 효과 모델이 최선의 선택입니다. 그렇지 않으면 임의의 효과가 적용됩니다.