차이 차이 (DiD)의 좋은 기능은 실제로 패널 데이터가 필요 없다는 것입니다. 치료가 일종의 집계 수준 (귀하의 도시에서는)에서 발생한다고 가정하면 치료 전후에 도시에서 무작위로 개체를 샘플링하기 만하면됩니다. 이를 통해 를 추정 할 수 있습니다
yist=Ag+Bt+βDst+cXist+ϵist
치료에 대한 예상 사후 결과 차이에서 대조군에 대한 예상 사후 결과 차이를 뺀 것으로 치료의 인과 적 효과를 얻는다.
yit=αi+Bt+βDit+cXit+ϵit
Dit Steve Pischke가
Ag
다음은 이것이 사실임을 보여주는 코드 예제입니다. Stata를 사용하지만 선택한 통계 패키지에서이를 복제 할 수 있습니다. 여기서 "개인"은 실제로 국가이지만 일부 치료 지표에 따라 그룹화되어 있습니다.
* load the data set (requires an internet connection)
use "http://dss.princeton.edu/training/Panel101.dta"
* generate the time and treatment group indicators and their interaction
gen time = (year>=1994) & !missing(year)
gen treated = (country>4) & !missing(country)
gen did = time*treated
* do the standard DiD regression
reg y_bin time treated did
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .1212795 3.09 0.003 .1328576 .6171424
treated | .4166667 .1434998 2.90 0.005 .13016 .7031734
did | -.4027778 .1852575 -2.17 0.033 -.7726563 -.0328992
_cons | .5 .0939427 5.32 0.000 .3124373 .6875627
------------------------------------------------------------------------------
* now repeat the same regression but also including country fixed effects
areg y_bin did time treated, a(country)
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .120084 3.12 0.003 .1348773 .6151227
treated | 0 (omitted)
did | -.4027778 .1834313 -2.20 0.032 -.7695713 -.0359843
_cons | .6785714 .070314 9.65 0.000 .53797 .8191729
-------------+----------------------------------------------------------------
따라서 개별 고정 효과가 포함 된 경우 DiD 계수가 동일하게 유지됩니다 ( areg
Stata에서 사용 가능한 고정 효과 추정 명령 중 하나임). 표준 오차는 약간 더 엄격하며, 원래의 치료 지표는 개별 고정 효과에 의해 흡수되어 회귀에서 떨어졌습니다.
의견에 응답하여
사람들이 치료 그룹 지표가 아닌 개별 고정 효과를 사용할 때를 보여주는 Pischke 예제를 언급했습니다. 설정에는 그룹 구조가 잘 정의되어 있으므로 모델을 작성하는 방식이 완벽합니다. 표준 오류는 도시 수준, 즉 처리가 수행되는 집계 수준에서 클러스터되어야합니다 (예제 코드에서는이 작업을 수행하지 않았지만 DiD 설정에서는 표준 오류를 Bertrand et al 논문에서 입증 된대로 수정해야 함) ).
Dstst
c=[E(yist|s=1,t=1)−E(yist|s=1,t=0)]−[E(yist|s=0,t=1)−E(yist|s=0,t=0)]
E(yist|s=1,t=1)E(yist|s=0,t=1). 발동기가 아닌 시간에 따른 그룹 차이에서 식별이 발생하는 이유를 명확하게하기 위해 간단한 그래프로이를 시각화 할 수 있습니다. 결과의 변화가 진정 치료 때문이고 동시에 효과가 있다고 가정하십시오. 치료가 시작된 후 치료 도시에 거주하지만 통제 도시로 이사하는 개인이있는 경우, 결과는 치료 전 상태로 되돌아 가야합니다. 아래 양식화 된 그래프에 나와 있습니다.
그래도 다른 이유로 이동자들에 대해 생각하고 싶을 수도 있습니다. 예를 들어, 치료에 지속적인 효과가있는 경우 (즉, 개인이 움직여도 여전히 결과에 영향을 미침)