차이의 차이는 무엇입니까?


43

차이의 차이는 오랫동안 비 경제적 도구, 특히 경제학에서 널리 사용되어 왔습니다. 누군가 차이의 차이에 대한 다음 질문에 명확하고 비 기술적 답변을 제공 할 수 있습니까?

차이 차이 추정기는 무엇입니까?
차이 차이 추정기가 왜 사용됩니까?
실제로 차이 차이 추정값을 신뢰할 수 있습니까?


gretl의 차이 회귀 차이를 추정하는 방법을 아는 사람이 있습니까? OLS 또는 패널 데이터로 작업해야합니까?

3
@Pyca 댓글이 부적절하게 사용 된 것 같습니다. 이 질문과 관련하여 새로운 질문을 게시해야합니다.
chl

답변:


66

차이 추정기의
차이점 차이 차이 (DiDference Differences Difference)는 치료 결과와 치료 그룹의 결과에서 치료 전후의 차이를 비교하는 치료 효과를 추정하는 도구입니다. 일반적으로, 우리는 와 같이 결과 (예 : 임금, 건강 등)에 대한 치료 (예 : 노동 조합 상태, 약물 등) 의 영향을 추정하는 데 관심이 있습니다 . 여기서 는 개별 고정 효과 (시간이 지나도 변하지 않는 개인의 특성), 는 시간 고정 효과, 는 개인의 나이와 같은 시변 공변량이며DiYi

Yit=αi+λt+ρDit+Xitβ+ϵit
αiλtXitϵit 은 오류 용어입니다. 개인과 시간은 각각 와 로 색인됩니다 . 고정 효과와 사이에 상관 관계가있는 경우 고정 효과가 제어되지 않는 경우 OLS를 통해이 회귀 추정이 바이어스됩니다. 이것은 일반적으로 생략 된 가변 바이어스 입니다.itDit

치료의 효과를보기 위해 치료를받은 세계의 사람과 치료하지 않은 사람의 차이를 알고 싶습니다. 물론 실제로는 이들 중 하나만 관찰 할 수 있습니다. 따라서 결과에서 동일한 전처리 추세를 가진 사람들을 찾습니다. 두 개의 기간 및 두 개의 그룹 가 있다고 가정하십시오 . 그런 다음, 치료 및 통제 그룹의 추세가 치료가 없을 때와 같은 방식으로 계속 될 것이라는 가정하에 치료 효과를 t=1,2s=A,B

ρ=(E[Yist|s=A,t=2]E[Yist|s=A,t=1])(E[Yist|s=B,t=2]E[Yist|s=B,t=1])

그래픽 적으로 이것은 다음과 같습니다. 여기에 이미지 설명을 입력하십시오

이러한 수단을 직접 수작업으로 계산할 수 있습니다. 즉, 두 기간 모두 그룹 의 평균 결과를 얻고 차이를 가져옵니다 . 그런 다음 두 기간 모두 그룹 의 평균 결과를 구하고 차이를 취하십시오. 그런 다음 차이점을 고려해보십시오. 이것이 치료 효과입니다. 그러나 회귀 프레임 워크 에서이 작업을 수행하는 것이 더 편리합니다.AB

  • 공변량을 제어하기 위해
  • 치료 효과에 대한 표준 오차를 구하여 유의한지 확인

이를 위해 두 가지 동등한 전략 중 하나를 수행 할 수 있습니다. 개인이 그룹 있고 0이 아닌 경우 1 인 제어 그룹 더미 를 생성하고, 그렇지 않으면 이면 1 인 시간 더미 를 생성하고 , 그렇지 않으면 0 그런 다음 회귀 treatiAtimett=2

Yit=β1+β2(treati)+β3(timet)+ρ(treatitimet)+ϵit

또는 단순히 사람이 치료 그룹에 있고 기간이 치료 후 기간이고 그렇지 않으면 0 인 더미 를 생성합니다 . 그런 다음 Y t = β 1 γ S + β 2 λ t + ρ T I t + ε I tTit

Yit=β1γs+β2λt+ρTit+ϵit

여기서 는 다시 제어 그룹에 대한 더미이고 는 시간 인형입니다. 두 회귀 분석은 두 기간과 두 그룹에 대해 동일한 결과를 제공합니다. 두 번째 방정식은 여러 그룹과 기간으로 쉽게 확장되므로 더 일반적입니다. 두 경우 모두 제어 변수를 포함시킬 수있는 방식으로 차이 매개 변수의 차이를 추정 할 수있는 방법입니다 (위의 방정식에서 변수를 정리하지 않고 간단히 포함시킬 수 있음). 추론하기 위해.λ tγsλt

차이 추정기의 차이가 유용한 이유는 무엇입니까?
전술 한 바와 같이, DiD는 실험적이지 않은 데이터에 의한 치료 효과를 추정하는 방법이다. 가장 유용한 기능입니다. DiD는 고정 효과 추정 버전입니다. 고정 효과 모델은 가정하지만 DiD는 비슷한 가정을하지만 그룹 수준에서는 . 결과의 기대 값은 그룹과 시간 효과의 합입니다. 차이점은 무엇입니까? 당신은 반드시 긴 당신의 반복 단면 등으로 패널 데이터가 필요하지 않은 들어 같은 집계 단위에서 작성한 . 따라서 DiD는 패널 데이터가 필요한 표준 고정 효과 모델보다 광범위한 데이터에 적용 할 수 있습니다. E ( Y 0 i t | s , t ) = γ s + λ t sE(Y0it|i,t)=αi+λtE(Y0it|s,t)=γs+λts

차이점의 차이를 신뢰할 수 있습니까?
DiD에서 가장 중요한 가정은 병렬 추세 가정입니다 (위 그림 참조). 이러한 추세를 그래픽으로 보여주지 않는 연구를 절대 신뢰하지 마십시오! 1990 년대의 논문은 이것으로 사라졌지 만 요즘 DiD에 대한 우리의 이해가 훨씬 좋습니다. 치료군과 대조군에 대한 전처리 결과의 병행 경향을 보여주는 설득력있는 그래프가 없다면주의해야합니다. 병렬 경향 가정이 유지되고 치료를 혼란시킬 수있는 다른 시변 변화를 확실하게 배제 할 수 있다면 DiD는 신뢰할만한 방법입니다.

표준 오류 처리와 관련하여주의해야 할 또 다른 단어가 적용되어야합니다. 수년간의 데이터를 사용하면 자기 상관에 대한 표준 오류를 조정해야합니다. 과거에는 Bertrand et al. (2004) "차이 추정 차이를 얼마나 신뢰해야합니까?" 우리는 이것이 문제라는 것을 알고 있습니다. 논문에서 그들은 자기 상관을 다루기위한 몇 가지 구제책을 제공합니다. 가장 쉬운 방법은 개별 시계열 사이의 잔차에 대한 임의의 상관 관계를 허용하는 개별 패널 식별자를 클러스터링하는 것입니다. 이것은 자기 상관 및 이분산성을 모두 수정합니다.

자세한 내용은 WaldingerPischke의 강의 노트를 참조하십시오 .



0

시계열에서 외인성 사건의 영향을 조사하기 위해 계량 경제학에서 널리 사용되는 기술입니다. 이벤트 전과 후에 관련된 두 개의 별도 데이터 그룹을 선택합니다. 자세한 내용은 Wooldridge의 Econometrics 소개 책을 참조하십시오 .


2
간결한 비 기술적 답변으로 이것은 Andy의 답변을 보완하는 것이지만 "실제로 차이 차이 추정치를 신뢰할 수 있습니까?"는 다루지 않습니다.
Silverfish

0

꼼꼼한:

두 가지 추가 사항은 주목할 가치가 있습니다. 첫째, 원본 92 개 DD 논문 중 80 개는 관측 단위가 변동 수준보다 더 상세하기 때문에 그룹화 된 오류 항에 잠재적 인 문제가있다 (도널드와 랭 (Donald and Lang) [2001]). 이 문서 중 36 개만이 표준 오류를 클러스터링하거나 데이터를 집계하여이 문제를 해결합니다. 둘째, 중재 변수의 가능한 내 생성을 다루기 위해 몇 가지 기술이 (비공식적으로) 사용됩니다. 예를 들어, 3 개의 논문은 식 (1)에 지연 종속 변수를 포함하고, 7 개는 처리 된 상태에 특정한 시간 추세를 포함하고, 15 개는 처리 효과의 역학을 조사하기위한 일부 그래프를 작성하고, 3 개는 "효과"가 있는지 여부를 조사합니다. 법은 두 가지 효과가 지속되는지 여부를 테스트합니다. 11 개의 다른 통제 그룹을 찾아서 공식적으로 3 차-차이 (DDD)를 시도합니다. Bertrand, Duflo 및 Mullainathan [2002]에서 우리는 이러한 기술의 대부분이 일련의 상관 관계 문제를 완화하지 않음을 보여줍니다.

(Bertrand, Duflo 및 Mullainathan 2004, 253)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.