8000 개의 클러스터와 4 백만 개의 관측치가있는 데이터 세트가 있습니다. 불행히도 내 통계 소프트웨어 Stata는 로지스틱 회귀 분석에 패널 데이터 기능을 사용할 때 다소 느리게 실행됩니다 xtlogit
.
그러나 비 패널 logit
기능을 사용하면 결과가 훨씬 빨리 나타납니다. 따라서 logit
고정 효과를 설명하는 수정 된 데이터를 사용하면 이점을 얻을 수 있습니다 .
나는이 절차가 "Mundlak 고정 효과 절차"(Mundlak, Y. 1978. 시계열 및 횡단면 데이터 풀링 Econometrica, 46 (1), 69-85)로 만들어 졌다고 생각한다.
Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010) 의 논문에서이 절차에 대한 직관적 인 설명을 찾았습니다 . 인과 관계 주장에 대한 검토 : 권고 및 권고. 분기 별 리더십, 21 (6). 1086-1120. 나는 인용한다 :
생략 된 고정 효과의 문제를 해결하고 여전히 수준 2 변수를 포함하는 한 가지 방법은 추정 된 모델에 모든 수준 1 공변량의 군집 평균을 포함시키는 것입니다 (Mundlak, 1978). 군집 평균은 회귀 변수로 포함되거나 수준 1 공변량에서 공제됩니다 (즉, 군집 평균 중심화). 군집 평균은 군집 내에서 변하지 않으며 (군집마다 다름) 수정 된 효과가 포함 된 것처럼 수준 1 매개 변수의 일관된 추정을 허용합니다 (Rabe-Hesketh & Skrondal, 2008 참조).
따라서 클러스터 평균 센터링은 내 계산 문제를 해결하는 데 이상적이고 실용적입니다. 그러나이 논문들은 선형 회귀 (OLS)를 지향하는 것으로 보인다.
이 군집 평균 중심화 방법은 고정 효과 이항 로지스틱 회귀의 "복제"에도 적용 가능합니까?
동일한 대답을 가져야하는보다 기술적 인 질문은 다음 xtlogit depvar indepvars, fe
과 같습니다. logit depvar indepvars
데이터 집합 B가 클러스터 평균 중심 버전의 데이터 집합 A 인 경우 데이터 집합 A가 데이터 집합 B와 동일 합니까?
이 클러스터 평균 센터링에서 발견 된 추가 어려움은 인형에 대처하는 방법입니다. 인형은 0 또는 1이므로 랜덤 및 고정 효과 회귀 분석에서 동일합니까? 그들은 "중심"해서는 안됩니까?