계량 경제학의“무작위 효과 모델”은 계량 경제학 이외의 혼합 모형과 정확히 어떤 관련이 있습니까?


56

계량 경제학의 "무작위 효과 모델"이 계량 경제학 외부의 "임의 차단과 혼합 된 모델"에 해당한다고 생각했지만 지금은 확실하지 않습니다. 그렇습니까?

계량 경제학은 "고정 효과"및 "무작위 효과"와 같은 용어를 혼합 모형에 대한 문헌과 약간 다르게 사용하며 이는 악명 높은 혼란을 야기합니다. 가 선형 적으로 의존 하지만 다른 측정 그룹에서 다른 절편을 갖는 간단한 상황을 생각해 봅시다 .yx

yit=βxit+ui+ϵit.

여기서 각 단위 / 그룹 는 다른 시점 에서 관찰됩니다 . 계량 경제학자들은 이것을 "패널 데이터"라고 부릅니다.it

  • 혼합 모형 용어에서 를 고정 효과 또는 임의 효과 (이 경우 무작위 차단)로 취급 할 수 있습니다 . 이를 고정 된 것으로 취급한다는 것은 및 를 피팅 하여 제곱 오차를 최소화하는 것입니다 (즉, 더미 그룹 변수로 OLS 회귀 실행). 이를 무작위로 취급한다는 것은 u_i \ sim \ mathcal N (u_0, \ sigma ^ 2_u) 을 추가로 가정하고 각 u_i 를 자체적 으로 맞추는 대신 u_0\ sigma ^ 2_u 에 맞추기 위한 최대 가능성을 사용 한다는 것을 의미합니다 . 이것은 "부분 풀링"효과로 이어지고, 여기서 추정치 \ hat u_i 는 평균 \ hat u_0 쪽으로 줄어 듭니다 .βuiβ^u^iuiN(u0,σu2)u0σu2U I U 0uiu^iu^0

    R formula when treating group as fixed:    y ~ x + group
    R formula when treating group as random:   y ~ x + (1|group)
    
  • 계량 경제학 용어에서는이 전체 모델을 고정 효과 모델 또는 임의 효과 모델로 취급 할 수 있습니다. 첫 번째 옵션은 위의 고정 효과와 동일하지만 계량 경제학은 이 경우 를 추정하는 고유 한 방법을 갖습니다 . 나는 두 번째 옵션이 위의 무작위 효과와 같다고 생각했습니다. 예 : @JiebiaoWang 은 임의 효과, 고정 효과 및 한계 모델의 차이점이 무엇입니까? 말한다 β"within" estimator

    계량 경제학에서 랜덤 효과 모델은 생물 통계학에서와 같이 랜덤 인터셉트 모델 만 참조 할 수 있습니다

좋습니다 ---이 이해가 올바른지 테스트 해 봅시다. 다음은 @ChristophHanck 이 고정 효과, 임의 효과 및 혼합 효과 모델의 차이점 에 대한 답변에서 생성 한 임의의 데이터입니다 . ( R을 사용하지 않는 사람들을 위해 데이터를 pastebin 에 넣었습니다 ).

여기에 이미지 설명을 입력하십시오

@Christoph는 계량 경제학 접근법을 사용하여 다음 두 가지를 수행합니다.

fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

첫 번째 것은 베타의 추정치를 -1.0451두 번째 것 0.77031(예, 양수)과 같습니다. 나는 그것을 재현하기 위해 노력 lm하고 lmer:

l1 = lm(stackY ~ stackX + as.factor(unit), data = paneldata)
l2 = lmer(stackY ~ stackX + (1|as.factor(unit)), data = paneldata)

첫 번째 -1.045는 위의 추정량과 완벽하게 일치합니다. 시원한. 그러나 두 번째 수율 -1.026은 랜덤 효과 추정기에서 몇 마일 떨어져 있습니다. 응? 무슨 일이야? 사실, 무엇 plm하고 , 때 호출 model = "random"?

그것이 무엇을하고 있든 혼합 모델 관점을 통해 어떻게 든 이해할 수 있습니까?

그리고 무엇을하고 있는지에 대한 직관은 무엇입니까? 나는 임의의 효과 추정기가 고정 효과 추정기와 "between" estimator가산 그룹에 그룹 정체성을 전혀 포함하지 않으면 회귀 기울기가 다소 가중되는 몇 가지 계량 측량 점에서 읽었습니다 (이 추정은 강하게 긍정적입니다. case, around 4.) 예 : @Andy 는 다음같이 씁니다 .

그런 다음 랜덤 효과 추정기는 데이터 내 및 변형 사이의 행렬 가중 평균을 사용합니다. [...] 랜덤 효과를보다 효율적으로 만듭니다.

왜? 이 가중 평균을 원하는 이유는 무엇입니까? 특히 혼합 모델을 실행하는 대신 왜 원하는가?


8
와우, 24 시간 이내에 20 개가 넘는 공감 율과 6 개의 깨달음이 있지만 모두 생태 학적 측면에 초점을 맞 춥니 다. 지금까지 혼합 모델에 대한 답변은 없습니다.
amoeba는 Reinstate Monica가


답변:


16

요약 : 계량 경제학의 "무작위 영향 모델"과 "무작위 절편 혼합 모델"은 실제로 동일한 모델이지만 다른 방식으로 추정됩니다. 계량 경제학 방식은 FGLS를 사용하고 혼합 모델 방식은 ML을 사용하는 것입니다. FGLS를 수행하는 알고리즘에는 여러 가지가 있으며 그 중 일부 (이 데이터 세트에서)는 ML에 매우 가까운 결과를 생성합니다.


1. 추정 방법의 차이점 plm

나는 내 테스트에 응답 할 것이다 plm(..., model = "random")lmer()@ChristophHanck에 의해 생성 된 데이터를 사용.

plm package manual 에 따르면 다음과 같은 네 가지 옵션이 있습니다 random.method. 랜덤 효과 모델의 분산 성분 추정 방법. @amoeba는 기본값을 사용했습니다 swar(Swamy and Arora, 1972).

랜덤 효과 모델의 경우 random.method를 "swar"(Swamy and Arora (1972)) (기본값), "amemiya"(Amemiya (1971)), "walhus"( Wallace and Hussain (1969)) 또는 "nerlove"(Nerlove (1971)).

나는 동일한 데이터를 사용하여 4 가지 옵션을 모두 테스트하여에 대한 오류가 발생amemiya 하고 변수에 대해 3 가지 완전히 다른 계수 추정값을 얻었습니다stackX . random.method='nerlove''amemiya' 를 사용하는 것과 'amemiya'는 lmer()-1.029 및 -1.025와 -1.026의 것과 거의 같습니다 . 또한 "고정 효과"모델, -1.045에서 얻은 것과 크게 다르지 않습니다.

# "amemiya" only works using the most recent version:
# install.packages("plm", repos="http://R-Forge.R-project.org")

re0 <- plm(stackY~stackX, data = paneldata, model = "random") #random.method='swar'
re1 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='amemiya')
re2 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='walhus')
re3 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='nerlove')
l2  <- lmer(stackY~stackX+(1|as.factor(unit)), data = paneldata)

coef(re0)     #    (Intercept)   stackX    18.3458553   0.7703073 
coef(re1)     #    (Intercept)   stackX    30.217721   -1.025186 
coef(re2)     #    (Intercept)   stackX    -1.15584     3.71973 
coef(re3)     #    (Intercept)   stackX    30.243678   -1.029111 
fixef(l2)     #    (Intercept)   stackX    30.226295   -1.026482 

불행히도 지금은 시간이 없지만 관심있는 독자는 추정 절차를 확인하기 위해 네 가지 참고 문헌을 찾을 수 있습니다. 그들이 왜 그런 차이를 만드는지 알아내는 것이 매우 도움이 될 것입니다. 경우에 따라 변환 된 데이터를 plm사용한 추정 절차는 lm()에 사용 된 최대 가능성 절차와 같아야합니다 lmer().

2. GLS와 ML의 비교

plm패키지 의 저자는 논문 7 장에서 이브 크로와상 (Ives Croissant)과 지오바니 밀로 (Giovanni Millo) 2008 패널 데이터 계량 경제학 R : plm 패키지 의 두 가지를 비교했다 .

계량 경제학은 주로 실험이 아닌 데이터를 처리합니다. 사양 절차와 잘못된 사양 테스트에 중점을 둡니다. 따라서 모델 사양은 매우 간단한 경향이 있지만, 회귀 변수의 내인성 문제, 정규 성과의 편차 하에서 추정기의 오차 및 견고성에 대한 의존성 구조 문제에 큰 관심을 기울입니다. 선호되는 접근법은 종종 반모 수적이거나 비모수 적이며, 이분산성 일관성 기술은 추정과 테스트 모두에서 표준 관행이되고 있습니다.

이러한 모든 이유로, 계량 경제학에서 [...] 패널 모델 추정은 대부분 Aitken 's Theorem [...]에 기반한 일반화 된 최소 제곱 프레임 워크에서 수행됩니다. 반대로, 길이 방향의 데이터 모델 nlme및은 lme4(제한 또는 제한), 최대 우도 추정된다. [...]

계량 경제학 GLS 접근법은 표준 선형 대수로 계산할 수있는 폐쇄 형 분석 솔루션을 가지고 있으며, 후자는 때때로 기계에서 계산적으로 무거울 수 있지만 추정기의 표현은 일반적으로 다소 단순합니다. 반대로 종단 모델의 ML 추정은 폐쇄 형 솔루션이없는 비선형 함수의 수치 최적화를 기반으로하므로 근사와 수렴 기준에 따라 달라집니다.


3. 혼합 모델 업데이트

@ChristophHanck이 random.method사용 된 네 가지에 대해 철저히 소개하고 plm그 추정치가 왜 다른지 설명했습니다. @amoeba의 요청에 따라 혼합 모델 (우도 기반)과 GLS와의 연결에 대해 몇 가지 생각을 추가합니다.

우도 기반 방법은 일반적으로 랜덤 효과와 오차 ​​항에 대한 분포를 가정합니다. 정규 분포 가정이 일반적으로 사용되지만 비정규 분포를 가정하는 일부 연구도 있습니다. 랜덤 인터셉트 모델에 대한 @ChristophHanck의 표기법을 따르고 불균형 데이터, 즉 합니다.T=ni

모델은 와 .

yit=xitβ+ηi+ϵiti=1,,m,t=1,,ni
ηiN(0,ση2),ϵitN(0,σϵ2)

각 에 대해 따라서 로그 우도 함수는i

yiN(Xiβ,Σi),Σi=ση21ni1ni+σϵ2Ini.
const12ilog|Σi|12i(yiXiβ)Σi1(yiXiβ).

Laird and Ware (1982)에 표시된대로 모든 분산이 알려진 경우 MLE는 는 GLS 는 @ChristophHanck에서 파생되었습니다. 따라서 주요 차이점은 분산 추정에 있습니다. 폐쇄 형 솔루션이없는 경우 여러 가지 접근 방식이 있습니다.

β^=(iXiΣi1Xi)1(iXiΣi1yi),
β^RE
  • 최적화 알고리즘을 사용하여 로그 우도 함수의 직접 최대화;
  • EM (Expectation-Maximization) 알고리즘 : 폐쇄 형 솔루션이 존재하지만 에 대한 추정에는 랜덤 차단의 실험적인 베이지안 추정이 포함됩니다.β
  • 상기 두 가지 기대 / 조건 최대화 최대화 (ECME) 알고리즘의 조합 (Schafer, 1998; R package lmm). 다른 매개 변수화를 사용하면 (위와 같이) 및 대한 폐쇄 형 솔루션 이 존재합니다. 용 용액 로 쓸 수 여기서 는 으로 정의되며 EM 프레임 워크에서 추정 할 수 있습니다.βσϵ2σϵ2
    σϵ2=1inii(yiXiβ^)(ξ^1ni1ni+Ini)1(yiXiβ^),
    ξση2/σϵ2

요약하면 MLE에는 분포 가정이 있으며 반복 알고리즘으로 추정됩니다. MLE과 GLS의 주요 차이점은 분산 추정에 있습니다.

Croissant and Millo (2008)는

정규성 하에서, 동종 진 동성 및 에러의 일련의 상관 관계가 없음 OLS는 또한 최대 가능성 추정기이며, 다른 모든 경우에는 중요한 차이점이 있습니다.

필자의 의견으로는 분포 가정에 대해서는 모수 적 접근 방법과 비모수 적 접근 방법의 차이와 마찬가지로 가정이 유지 될 때 MLE이 더 효율적일 것이지만 GLS는 더 강력 할 것입니다.


오류 메시지의 문제가 변수를 벡터로 생성하는 것과 관련이 있다고 생각합니까? plm은 데이터를 다르게 저장하는 것을 선호합니까?
Christoph Hanck

1
nerlove여기서는 잘 작동하지만 마지막 패널에서 1 개의 관측치를 삭제하고 모든 방법을 실행하려고 시도하여 알 수 있듯이 불균형 패널에는 구현되지 않았습니다.
amoeba는

2
@ChristophHanck @amoeba 모델에 공변량이 하나 뿐인 경우 의 행렬 형식을 유지하는 대신 사용해야하는 plm오류가 random.method="amemiya"발생했습니다 . 어쨌든 표준 정규 변수를 수식에 추가하여이를 극복하려고했습니다. 추정값 -1.02로 결과를 재현하며 불균형 데이터에도 적용됩니다. X[, -1, drop=FALSE]X[, -1]X[, -1]amemiya
Randel

3
@ jiebiao - 왕 @ChristophHanck은 PLM의 현재 개발 버전은 괜찮 실행 @amoeba random.method="amemiya": 특이한 var에 std.dev 점유율 0.6360 0.7975 0.002 개별 313.6510 17.7102 0.998 세타 : 0.9841
Helix123

1
안녕하세요 @JiebiaoWang. 귀하의 업데이트 후에 귀하의 답변이 제 질문에 만족스럽게 응답한다고 생각했습니다. 나는 amemiyaML과 GLS에 대해 약간의 수정을하고 업데이트 와 인용문 을 삽입 할 자유를 가졌다. 나는 그것을 받아 들인 것으로 표시하고 현상금을 수여 할 것입니다. 건배.
amoeba는

17

이 답변은 혼합 모델에 대해서는 언급하지 않지만 랜덤 효과 추정기가 수행하는 작업과 해당 그래프에서 왜 실패하는지 설명 할 수 있습니다.

요약 : 랜덤 효과 추정기는 가정하지만 이 예에서는 그렇지 않습니다.E[uix]=0


랜덤 효과 추정기는 무엇을하고 있습니까?

모델이 있다고 가정하십시오.

yit=βxit+ui+ϵit

그룹 와 시간 의 두 가지 변형 차원이 있습니다 . 를 추정하기 위해 다음을 수행 할 수 있습니다.itβ

  1. 그룹 에서 시계열 변형 만 사용하십시오 . 이것이 고정 효과 추정기 (fixed-effect estimator)의 기능입니다 (그리고 이것이 종종 내부 추정기라고도하는 이유입니다).
  2. 경우 무작위, 우리는 그룹의 시계열 수단 사이에만 단면 변화를 사용할 수 있습니다. 이를 추정기 사이 라고합니다 .ui

    특히, 각 그룹 에 대해 위의 패널 데이터 모델의 평균 시간을 가져 와서 가져옵니다.i

    y¯i=βx¯i+vi where vi=ui+ϵ¯i

    이 회귀 분석을 실행하면 추정값이 구해집니다. 효과 가 임의의 백색 잡음이고 와 상관이없는 경우 일관된 추정량입니다 . 이 경우 (고정 효과 추정기에서와 같이) 그룹 간 편차를 완전히 던지는 것은 비효율적입니다.uix

계량 경제학의 랜덤 효과 추정기는 (1) 추정기 (즉, 고정 효과 추정기)와 (2) 추정기 사이의 효율을 최대화하는 방식으로 결합합니다. 일반화 된 최소 제곱 의 응용이며 기본 아이디어는 역 분산 가중치 입니다. 효율성을 최대화하기 위해 랜덤 효과 추정기는 를 내부 추정기와 추정기 간의 가중 평균으로 계산 합니다.β^

그 그래프에서 무슨 일이 일어나고 있습니까?

그 그래프를 보아서 무슨 일이 일어나고 있는지 명확하게 볼 수 있습니다.

  • 각 그룹 내에서 (즉, 같은 색의 점), 더 높은 는 더 낮은 와 연관됩니다ixityit
  • 가 높은 그룹 가 높습니다 .ix¯iui

이라는 랜덤 효과 가정 은 분명히 만족스럽지 않습니다. 그룹 효과 는 직교 적이 지 않으며 (통계적 의미에서), 그룹 효과는 와 명확한 양의 관계를 갖습니다 .E[uix]=0uixx

사이 추정기는 이라고 가정합니다 . 사이 평가자는 " 양수 로하여 부과 할 수 있는지 확인하십시오 !"라고 말합니다.E[uix]=0E[uix]=0β^

그런 다음 랜덤 효과 추정기는 오프 추정기 및 추정기 간의 가중 평균이기 때문에 꺼집니다.


+1 감사합니다. Matthew. 누군가 왜 당신의 대답을 하향 조정했는지 확실하지 않습니다. 혼합 모델과의 연결을 설정하는 답변을 찾고 있으므로 귀하의 의견을 받아들이지 않지만 여전히이 토론에 도움이됩니다. 여기서 GLS와 역 분산 가중치를 적용하고 계산하는 방법을 조금 확장 할 수 있다면 매우 유용합니다.
amoeba는

16

이 답변에서는 계량 경제학 문헌이 랜덤 효과 추정기라고 부르는 것에 대한 GLS 관점에 관한 Matthew의 +1 답변에 대해 조금 자세히 설명하고 싶습니다.

GLS 관점

선형 모델 가 있음을 개최하는 경우 우리는 단순히 의한 모델 추정 수 풀링 OLS 패널 데이터 구조를 무시 금액, 단순히 모든 덩어리 관측 함께 .

yit=α+Xitβ+uiti=1,,m,t=1,,T
E(uit|Xit)=0n=mT

우리는 모델 사용하여 오류 구성 요소 모델을uit

uit=ηi+ϵit

행렬 표기법에서 모델은 으로 쓸 수 있습니다. 여기서 와 은 일반적인 벡터입니다. 및 요소 이며 는 더미 변수 의 (단위당 하나의 열) 행렬입니다. 행 단위에 속하는 경우 관찰에 대응되도록이고 후, 칼럼의 하나를 갖는 및 다른 0, .

y=αιmT+Xβ+Dη+ϵ
yϵnyitϵitDn×mDiDii=1,,m

또한

E(ϵϵ)=σϵ2I

개별 효과 는 과 독립적이어야합니다 . 랜덤 효과 추정기는 고정 효과와는 달리 (다시, 경제학 용어) 일하지만 추가적으로 강한 가정 필요 풀링 이러한 가정 하에서을 OLS는 편견이 없지만 GLS 추정기를 도출 할 수 있습니다. 가 평균 0이고 분산이 IID 라고 가정하십시오 .ηϵit

E(ηi|X)=0
ηiση2

이 가정은 임의 효과 라는 용어를 설명합니다 . 또한 두 오류 구성 요소가 독립적이라고 가정하면

Var(uit)=ση2+σϵ2Cov(uit,uis)=ση2Cov(uit,ujs)=0for all ij

우리는 다음 수 분산 - 공분산 행렬 : 여기에서, 는 와 벡터 1입니다. 우리는 따라서 쓸 수 있습니다 GLS에 추를 들어 우리는 합니다. 이를 위해 ,n×nΩ

Ω=(ΣOOOΣOOOΣ)
Σ=ση2ιι+σϵ2IT
ιT
Ω=ση2(Imιι)+σϵ2(ImIT)
β^RE=(XΩ1X)1XΩ1y
Ω1JT=ιιJ¯T=JT/TET=ITJ¯T . 그런 다음 또는 , 같은 행렬로 항을 모아서 등성 및 는 여기서 입니다.
Ω=Tση2(ImJ¯T)+σϵ2(ImET)+σϵ2(ImJ¯T)
Ω=(Tση2+σϵ2)(ImJ¯T)+σϵ2(ImET)
P=ImJ¯TQ=ImET
Ω1=1σ12P+1σϵ2Q=ση2σ12σϵ2(Imιι)+1σϵ2(ImIT),
σ12=Tση2+σϵ2

임의 효과 추정이 유용 할 수있는 이유는, 만약 다수의 패널 데이터 애플리케이션에 매우 큰 풀 OLS 또는 고정 효과 주어진 가정 하에서 (제공보다 더 효율적으로 추정, 인과 가우스 - 마르코프 로직은, 설명 는 실제로 회귀 변수와 관련이 없습니다). 요컨대, 오차 공분산 행렬이이 모델에서 등분 산적이지 않기 때문에 GLS가 더 효율적입니다.ηi

부분적으로 측정되지 않은 데이터에서 OLS를 실행하면 GLS 추정값을 얻을 수 있음을 알 수 있습니다. 여기서 입니다. 들면 일 추정기 ( "내부")는 고정 효과를 얻는다. 를 들어 하나는 "사이"추정을 가져옵니다. GLS 추정값은 둘 사이의 가중 평균입니다. ( 경우 풀링 된 OLS 추정기를 얻습니다.)

(yitθy¯i)=(XitθX¯i)β+(uitθui),
θ=1ση/σ1θ=1θθ=0

실현 가능한 GLS

FGLS 접근 방식을 실용화하려면 및 추정기가 필요합니다 . Baltagi, 패널 데이터의 계량 분석, p. 16 (제 3 판에서 인용), 진행 방법에 대한 다음 옵션에 대해 설명합니다.σ12σϵ2

먼저 관찰한다고 가정하십시오 . 그때,uit

σ^12=T1mi=1mu¯i2
및 는 매개 변수를 잘 평가할 수 있으며 는 단위의 침해에 해당하는 시간 평균입니다. .
σ^ϵ2=1m(T1)i=1mt=1T(uit1mi=1mu¯i)2
u¯ii

월리스 후세인 (1969) 접근 대체 구성 (결국, 여전히 바이어스 본 가정하에 일치) 풀링 OLS 회귀의 잔차와.u

아메 미야 (1971) 접근 방식은 FE (또는 LSDV) 대신 잔차를 사용하여 제안합니다. 계산 문제로, 우리 는 를 얻을 수 있도록 더미 변수 트랩을 우회하기 위해 이라는 제한을 부과합니다. 와 통해 그랜드 평균을 나타내는 및 LSDV 잔차 위해 .iηi=0α^=y¯X¯β^FEitu^=yα^Xβ^FE

기본 Swamy and Arora (1972) 접근법은 및 여기에서 .

σ^ϵ2=[yQ(IX(XQX)1XQ)y]/[m(T1)K]
σ^12=[yP(IZ(ZPX)1ZP)y]/[mK1]
Z=(ιmTX)

Nerlove (1971) 접근 추정치 에서 여기서 는 고정 효과 회귀의 모형이며 은이 회귀의 잔차 제곱합 내에서 분모 가 것으로 추정됩니다 .ση2i=1m(η^iη^¯)2/(m1)η^iσ^ϵ2mT

나는 이것이 Randel의 계산에 의해 보여지는 것과 같이 큰 차이를 만든다는 것에 매우 놀랐습니다!

편집하다:

차이점에 관해서는 오류 구성 요소의 추정치가 plm패키지 에서 검색 될 수 있으며 실제로 에 대한 포인트 추정치의 차이를 설명하는 매우 다른 결과를 반환합니다 (@Randel의 답변에 따라 시도하지 않은 오류가 발생합니다) 고치다):βamemiya

> ercomp(stackY~stackX, data = paneldata, method = "walhus")
                  var std.dev share
idiosyncratic 21.0726  4.5905 0.981
individual     0.4071  0.6380 0.019
theta:  0.06933  
> ercomp(stackY~stackX, data = paneldata, method = "swar")
                 var std.dev share
idiosyncratic 0.6437  0.8023 0.229
individual    2.1732  1.4742 0.771
theta:  0.811  
> ercomp(stackY~stackX, data = paneldata, method = "nerlove")
                   var  std.dev share
idiosyncratic   0.5565   0.7460 0.002
individual    342.2514  18.5000 0.998
theta:  0.9857  

나는 개별 구성 요소와 가 상관 되어있는 데이터를 사용하여 FE와 RE의 차이점을 보여 주려는 자매 스레드의 예제에서 오류 구성 요소의 추정치가 일관성이 없다고 생각 합니다. (실제로는 RE가 가중 평균 FE이고 오류 성분 추정치에 의해 결정된 가중치를 사용한 추정치 사이에 있다는 사실에 따라 궁극적으로 FE 추정치로부터 RE 추정치를 쫓아 낼 수 없기 때문에 RE가 아닐 경우 일관되게, 그것은 궁극적으로 이러한 추정치 때문입니다.)X

해당 예의 "불쾌감을주는"기능을 교체하면

alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))

간단히 말해

alpha = runif(n)

따라서 와 관련이없는 임의 효과는 대한 RE 포인트 추정값을 오류 구성 요소 추정의 모든 변형에 대해 실제 값 에 매우 가깝게 얻 습니다 .Xββ=1


참고 문헌

Amemiya, T., 1971, 분산 성분 모형의 분산 추정 , International Economic Review 12, 1–13.

Baltagi, BH, 패널 데이터의 계량 분석, Wiley.

Nerlove, M., 1971a, 시계열 횡단면에서 역동적 인 경제 관계의 추정에 대한 추가 증거 , Econometrica 39, 359–382.

Swamy, PAVB 및 SS Arora, 1972, 오차 성분 회귀 모델에서 계수 추정기의 정확한 유한 표본 특성 , Econometrica 40, 261–275.

Wallace, TD 및 A. Hussain, 1969, 횡단 및 시계열 데이터 결합에 오류 구성 요소 모델 사용 , Econometrica 37, 55–72.


4
+1. Christoph에게 감사드립니다. 이것은 도움이되었으며 마침내이 글에서 수학적인 세부 사항을 보게되어 기쁩니다. plmRandel에 구현 되고 나열된 네 가지 방법이 어떻게 작동하는지 살펴보고 이에 대한 의견으로 답변을 업데이트하는 것이 좋습니다. 자세한 설명이 아니라면 적어도 무슨 일이 일어나고 있는지에 대한 간단한 메모가 있습니다. 당신은 그것을 찾을 수 있다고 생각합니까? 나는 그에 대한 현상금을 제공하게되어 기쁘다 :-) 나의 순진한 접근법은 고정 효과 솔루션에서 두 시그마를 추정하는 것입니다. "명명 된"방법 중 하나에 해당합니까?
amoeba는

@amoeba, 오류 구성 요소 모델의 분산을 추정하는 방법에 대한 의견을 포함했습니다. 그러면 귀하의 제안이 Amemiya의 제안과 밀접한 관련이있는 것으로 보입니다.
Christoph Hanck

고마워요 Nerlove도 인형과 함께 회귀를 사용하지 않습니까? 사실, 나는 Amemiya와 Nerlove의 차이점이 무엇인지 잘 모르겠습니다. 내 "순진한"제안은 더미 회귀에 적합하고 잔차 분산을 의 추정치로 사용하고 더미 계수의 분산을 의 추정치로 사용하는 것이 었습니다 . 그것이 Nerlove가하는 일인 것 같습니다. 나는 Amemiya가 무엇을하고 있고 어떻게 다른지 잘 모르겠습니다. (그리고 나는이 방법들이 왜 이런 차이 σϵση
amoeba는 Reinstate Monica

예, 둘 다 인형과 함께 회귀를 사용합니다. 내가 아는 한, Amemiya와 Nerlove의 한 가지 차이점은 자유도 보정의 분모입니다. 또 하나는 추정 된 더미 계수의 분산이 잔차의 분산과 동일하다는 것을 확신하지 못한다는 것입니다. 또 다른 중요한 점은 Nerlove가 를 직접 측정하는 것을 목표로 하는 반면, 다른 세 개에 대해서는 를 통해 견적을 취소해야한다는 것입니다. 이들 중 하나의 알려진 단점은 이들이 음이 아니라는 보장이 없다는 것입니다. ( σ 2 1 - σ 2 ε ) / Tση2(σ^12σ^ϵ2)/T
Christoph Hanck

1
감사. 대해보다 명시적인 수식을 제공하도록 편집했습니다. 다시 확인하고 싶을 수도 있습니다 (그러나 정확하다고 생각합니다). 나는 당신의 답변에 수여 할 현상금을 시작했습니다. 그러나 나는 여전히 혼합 모델과의 연결을 이끌어 내고 GLS를 MLE과 대조하고 어떤 접근 방식을 선호 해야하는지, 왜 어떤 접근법을 선호 해야하는지 설명합니다 (현재 답변 중 어느 것도 그렇게하지 않으므로 현재 답변이 없습니다) "수락 됨"으로 선택하십시오. MLE (에 의해 구현 됨 )이 Nerlove와 매우 가까운 분산 추정치를 산출한다는 것이 흥미 롭습니다. Ω1lmer
amoeba는

11

R에 익숙하지 않아 코드에 주석을 달 수는 없지만 간단한 랜덤 절편 혼합 모델은 RE MLE 추정기와 동일해야하며 총 가 작을 때를 제외하고 RE GLS 추정기와 매우 유사해야합니다. 데이터의 균형이 맞지 않습니다. 바라건대, 이것은 문제를 진단하는데 유용 할 것입니다. 물론 이것은 모두 RE 추정기가 적절하다고 가정합니다.N=iTi

동등성을 보여주는 Stata가 있습니다 ( SSC 필요 esttabeststoSSC).

set more off
estimates clear
webuse nlswork, clear
eststo, title(mixed): mixed ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure || id: // Mixed estimator
eststo, title(MLE): xtreg ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure, i(id) mle // MLE RE estimator 
eststo, title(GLS): xtreg ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure, i(id) re // GLS RE estimato
esttab *, b(a5) se(a5) mtitle 

마지막 줄의 출력은 다음과 같습니다.

. esttab *, b(a5) se(a5) mtitle 

------------------------------------------------------------
                      (1)             (2)             (3)   
                    mixed             MLE             GLS   
------------------------------------------------------------
main                                                        
grade            0.070790***     0.070790***     0.070760***
              (0.0017957)     (0.0017957)     (0.0018336)   

age              0.031844***     0.031844***     0.031906***
              (0.0027201)     (0.0027202)     (0.0027146)   

c.age#c.age   -0.00065130***  -0.00065130***  -0.00065295***
             (0.000044965)    (0.000044971)    (0.000044880)   

ttl_exp          0.035228***     0.035228***     0.035334***
              (0.0011382)     (0.0011392)     (0.0011446)   

tenure           0.037134***     0.037134***     0.037019***
              (0.0015715)     (0.0015723)     (0.0015681)   

c.tenure#c~e   -0.0018382***   -0.0018382***   -0.0018387***
             (0.00010128)    (0.00010128)    (0.00010108)   

_cons             0.14721***      0.14721***      0.14691** 
               (0.044725)      (0.044725)      (0.044928)   
------------------------------------------------------------
lns1_1_1                                                    
_cons            -1.31847***                                
               (0.013546)                                   
------------------------------------------------------------
lnsig_e                                                     
_cons            -1.23024***                                
              (0.0046256)                                   
------------------------------------------------------------
sigma_u                                                     
_cons                             0.26754***                
                              (0.0036240)                   
------------------------------------------------------------
sigma_e                                                     
_cons                             0.29222***                
                              (0.0013517)                   
------------------------------------------------------------
N                   28099           28099           28099   
------------------------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

데이터에서 그룹 효과가 x와 명확하게 상관되어 있기 때문에 RE 추정기 사용에 대한 가정이 충족되지 않으므로 추정치가 매우 다릅니다. GLS RE 추정기는 실제로 추정기 간 및 추정기의 행렬 가중 평균 인 GMM (Generalized Method of Moments) 추정기입니다. 내부 추정기는 여기에서는 괜찮을 것입니다. 그러나 그 사이는 X에 큰 긍정적 인 영향을 미치는 것으로 심각하게 조여 질 것입니다. 따라서 GLS는 대부분 사이 추정기입니다. MLE RE는 랜덤 효과 모델의 가능성을 최대화하는 MLE입니다. 그들은 더 이상 같은 대답을 낼 것으로 기대되지 않습니다. 여기서 혼합 추정기는 FE "Within"추정기에 매우 가까운 것을 제공합니다.

. esttab *, b(a5) se(a5) mtitle 

----------------------------------------------------------------------------
                      (1)             (2)             (3)             (4)   
                    mixed             GLS             MLE          Within   
----------------------------------------------------------------------------
main                                                                        
x                -1.02502***      0.77031**       3.37983***     -1.04507***
               (0.092425)       (0.26346)       (0.20635)      (0.093136)   

_cons             30.2166***      18.3459***      0.49507         30.3492***
                (5.12978)       (2.31566)             (.)       (0.62124)   
----------------------------------------------------------------------------
lns1_1_1                                                                    
_cons             2.87024***                                                
                (0.20498)                                                   
----------------------------------------------------------------------------
lnsig_e                                                                     
_cons            -0.22598**                                                 
               (0.077195)                                                   
----------------------------------------------------------------------------
sigma_u                                                                     
_cons                                             2.40363                   
                                                (1.28929)                   
----------------------------------------------------------------------------
sigma_e                                                                     
_cons                                             4.23472***                
                                                (0.37819)                   
----------------------------------------------------------------------------
N                      96              96              96              96   
----------------------------------------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

위 표에 대한 Stata 코드는 다음과 같습니다.

clear
set more off
estimates clear

input int(obs id t) double(y x)
1      1           1  2.669271  0.5866982
2      1           2  1.475540  1.3500454
3      1           3  4.430008  0.6830919
4      1           4  2.162789  0.5845966
5      1           5  2.678108  1.0038879
6      1           6  3.456636  0.5863289
7      1           7  1.769204  2.3375403
8      1           8  3.413790  0.9640034
9      2           1  4.017493  1.5084121
10     2           2  4.218733  2.8982499
11     2           3  4.509530  3.2141335
12     2           4  6.106228  2.0317799
13     2           5  5.161379  2.1231733
14     2           6  2.724643  4.3369017
15     2           7  4.500306  1.9141065
16     2           8  4.119322  2.8667938
17     3           1  9.987779  2.3961969
18     3           2  7.768579  3.5509275
19     3           3  9.379788  3.3284869
20     3           4 10.035937  2.2997389
21     3           5 11.752360  2.8143474
22     3           6  9.500264  2.1825704
23     3           7  8.921687  5.0126462
24     3           8  8.269932  3.4046339
25     4           1 12.101253  3.2928033
26     4           2 11.482337  3.1645218
27     4           3 10.648010  4.8073987
28     4           4  9.687320  5.3394193
29     4           5 12.796925  3.1197431
30     4           6  9.971434  4.6512983
31     4           7 10.239717  4.7709378
32     4           8 12.245207  2.7952426
33     5           1 18.473320  5.8421967
34     5           2 19.097212  4.9425391
35     5           3 19.460495  4.9166172
36     5           4 18.642305  4.9856035
37     5           5 17.723912  5.0594425
38     5           6 16.783248  4.8615618
39     5           7 16.100984  6.2069167
40     5           8 18.851351  3.8856152
41     6           1 19.683171  7.5568816
42     6           2 21.104231  6.7441900
43     6           3 22.115529  6.4486514
44     6           4 22.061362  5.3727434
45     6           5 22.457905  5.8665798
46     6           6 21.424413  6.0578997
47     6           7 23.475946  4.4024323
48     6           8 24.884950  4.1596914
49     7           1 25.809011  7.6756255
50     7           2 25.432828  7.7910756
51     7           3 26.790387  7.3858301
52     7           4 24.640850  8.2090606
53     7           5 26.050086  7.3779219
54     7           6 25.297148  6.8098617
55     7           7 26.551229  7.6694272
56     7           8 26.669760  6.4425772
57     8           1 26.409669  8.3040894
58     8           2 26.570003  8.4686087
59     8           3 29.018818  7.2476785
60     8           4 30.342613  4.5207729
61     8           5 26.819959  8.7935557
62     8           6 27.147711  8.3141224
63     8           7 26.168568  9.0148308
64     8           8 27.653552  8.2081808
65     9           1 34.120485  7.8415520
66     9           2 31.286463  9.7234259
67     9           3 35.763403  6.9202442
68     9           4 31.974599  9.0078286
69     9           5 32.273719  9.4954288
70     9           6 29.666208 10.2525763
71     9           7 30.949857  9.4751679
72     9           8 33.485967  8.1824810
73    10           1 36.183128 10.7891587
74    10           2 37.706116  9.7119548
75    10           3 38.582725  8.6388290
76    10           4 35.876781 10.8259279
77    10           5 37.111179  9.9805046
78    10           6 40.313149  7.7487456
79    10           7 38.606329 10.2891107
80    10           8 37.041938 10.3568765
81    11           1 42.617586 12.1619185
82    11           2 41.787495 11.1420338
83    11           3 43.944968 11.1898730
84    11           4 43.446467 10.8099599
85    11           5 43.420819 11.2696770
86    11           6 42.367318 11.6183869
87    11           7 43.543785 11.1336555
88    11           8 43.750271 12.0311065
89    12           1 46.122429 12.3528733
90    12           2 47.604306 11.4522787
91    12           3 45.568748 13.6906476
92    12           4 48.331177 12.3561907
93    12           5 47.143246 11.7339915
94    12           6 44.461190 13.3898768
95    12           7 46.879044 11.4054972
96    12           8 46.314055 12.3143487
end

eststo, title(mixed): mixed y x || id:, mle // Mixed estimator
eststo, title(GLS): xtreg y x, i(id) re     // GLS RE estimato
eststo, title(MLE): xtreg y x, i(id) mle    // MLE RE estimator 
eststo, title(Within): xtreg y x, i(id) fe  // FE Within estimator 
eststo, title(Between): xtreg y x, i(id) be // Between estimator 

esttab *, b(a5) se(a5) mtitle 

+1. 감사합니다, Dimitriy, 같은 장난감 데이터 세트에서 Stata의 출력을 보는 것이 확실히 도움이됩니다. MLE 견적에 대한 질문이 있습니다. 나는 (혼합 모델 접근 생각 mixedSTATA과 lmerR의)는 최대 가능성 또는 때때로 "제한 최우는"(내에서 모두 사용할 수 있습니다 또한 lmer설정하여 전화 REML=T또는 REML=F그들이 거의 동일한 결과를 제공). 그러나 혼합 된 모델 접근 방식은 매우 합리적이고 정확한 결과를 제공하는 반면, Stat에서 "MLE"이라고 부르는 것은 의미없는 결과를 제공합니다. 차이점은 무엇입니까? Stat의 "MLE"은 정확히 무엇을 의미합니까?
amoeba는

2
@amoeba 모두 mixed, mlextreg, mleMLE 추정량하지만 가능성 기능은 다소 다르다. 전자는 여기 , 후자 는 여기 를 참조 하십시오 . 왜 모델이 그렇게 견고한 지 잘 모르겠습니다 . mixed
Dimitriy V. Masterov

xtmixed는 이전 버전의 Stata에서 혼합 된 것입니다. 귀하의 데이터의 경우, 그 동등성은 명확하게 유지되지 않지만 설명서에서 제안하는 것처럼 내 데이터를 유지합니다.
Dimitriy V. Masterov

ssc install estout내 기억에 따르면 다른 버전에서는 다른 기능을 가지고 있으며 이전 버전과 호환되지 못했습니다.
StasK

1
@StasK는 Stata 기술 지원 부서에 연락을 취했으며 버그가있을 가능성이 있다고 말했습니다 xtreg, mle. "일반적으로 결과는 [...]과 같아야합니다. 이러한 종류의 차이는 일반적으로 모형의 모수를 추정 할 때 식별 문제가있을 때 발생합니다. [...] 실제로 분산의 조건 번호를 확인했습니다. -xtreg, mle- 및 4000 이상 -mixed, mle-의 경우, 기본적으로 -xtreg, mle-에 대해 무한대 공분산 행렬은 무한대입니다. [...] 개발자 [...]는 문제를 평가하여 "고정 코드가 필요합니다."
amoeba는 Reinstate Monica

9

더 혼란스럽게하자 :

경제학 - 고정 효과 접근
패널 데이터 경제학에서 "고정 효과"접근 "에 의해 통과"개별 효과 변수의 존재에 의해 상기 슬로프 계수 (베타 버전)를 추정하는 방법이다 등 않음으로써 "고정"또는 "무작위"인지에 대한 가정. 이것이 "첫 번째 차이"추정기 (데이터의 첫 번째 차이를 사용함)와 "내부"추정기 (시간 평균과의 편차를 사용함)가하는 것입니다 : 베타 만 추정 할 수 있습니다.αi

개별 효과 ( "절편")를 상수로 명시 적으로 처리하는보다 전통적인 접근 방식의 경우 LSDV (Least Squares Dummy Variable) 추정기를 사용하여 의 추정값을 제공 합니다. 3 개의 추정기는 베타에 대해 생성 된 추정치와 관련하여 대수적으로 일치하지만 선형 모델에서만 가능합니다.αi

토론 (강의 노트에서 일부 발췌)

"고정 효과 접근법의 주요 장점은 개별 효과의 특성에 대해 어떤 가정도 할 필요가 없다는 것입니다.이 경우 이후 효과가 하나 이상의 회귀 변수와 상관 관계가 있다고 의심 될 때마다 적용해야합니다. 이러한 상관 관계의 존재를 무시하고 풀링 된 모델에 OLS를 순진하게 적용하면 일관되지 않은 추정값이 생성되지만, 개별 효과와 관련하여 최소한의 가정만으로도 고정 효과 접근 방식에는 특정 제한이 있습니다. 이러한 회귀 변수는 관측 할 수없는 개별 효과와 함께 차이가 있으므로 불변 회귀 변수는 추정 할 수 없습니다.개별 효과 (LSDV 추정기를 사용하는 경우)를 일관되게 추정 할 수 없습니다 (시간 차원을 무한대로 설정 한 경우 제외). "

경제-랜덤 효과 접근법
"전통적인"계량 랜덤 효과 방식에서는 개별 "절편" 가 "영구적 랜덤 성분"인 반면 "일반적인"오류 항은 "일시적인"오차 성분이라고 가정합니다.αi

흥미로운 확장에서, 추가적인 무작위성은 고정 된 (일정한) 개별 효과 및 오류 항과 함께 모든 단면에 공통적 인 임의 시간 효과 의 존재로 인해 발생합니다 . 예를 들어이 "시간 효과"는 모든 가구에 똑같이 영향을 미치는 경제 전반의 충격을 나타낼 수 있습니다. 이러한 집계 장애는 실제로 관찰되므로 현실적인 모델링 선택으로 보입니다.

여기서 "Random Effects"Estimator는 효율성을 높이기위한 GLS (Generalized Least Squares) 추정기입니다.

이제, 한 가지 더 추정 된 추정 기인 "Between"Estimator가 시간 평균 관측치에서 OLS를 수행합니다. 대수의 문제로, GLS 추정기는 내부 및 사이 추정기의 가중 평균으로 구할 수 있으며, 여기서 가중치는 임의적이지 않지만 두 가지의 VCV 행렬과 관련이 있습니다.

"비 상관 랜덤 효과"및 "상관 랜덤 효과"모델의 변형도 있습니다.

위의 내용이 "혼합 효과"모델과 대비되는 데 도움이되기를 바랍니다.


+1, Alecos 감사합니다. 이것은 도움이되지만 혼합 모델 접근법과의 모든 관계는 여전히 명확하지 않습니다. 나는 관계가 전혀 없을지 의심하기 시작합니다. 내부 및 내부 추정기 (및 내부는 클래스 인형과 동일 함)는 명확합니다. 나의 혼란은 랜덤 효과 접근에 관한 것입니다.
amoeba는
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.