(정말 긴 글입니다. 죄송합니다. 배경 정보가 많이 포함되어 있으므로 하단의 질문으로 건너 뛰어도됩니다.)
소개 : 저는 이진 내생 변수 이 지속적인 결과 에 미치는 영향을 확인하려는 프로젝트를 진행하고 있습니다. 우리는 임의로 할당 된 것으로 강력하게 믿고 있는 도구 .
데이터 : 데이터 자체는 약 34,000 개의 관측치가 1000 개 단위와 약 56 개의 기간에 걸쳐있는 패널 구조입니다. 은 관측치의 약 700 (2 %)에 대해 1의 값을 취하고 은 약 3000 (9 %) 에 대해 1의 값을 취합니다 . 111 (0.33 %) 관찰은 모두 1 점을 및에 및 관찰에 1 점 것이 아니라 가능성 두배 그것은 또한 득점 1 경우에 .
추정 : Stata의 ivreg2-procedure를 통해 다음 2SLS 모델을 추정합니다.
여기서 다른 외인성 변수의 벡터이고, 의 예측값이다 첫 번째 단계에서, 그리고 및 오차항이다.
결과 : 모든 것이 잘 작동하는 것 같습니다. 의 추정치는 첫 번째 단계에서 매우 중요하고 의 추정치 는 두 번째 단계에서 매우 중요합니다. 다른 외인성 변수에 대한 표시를 포함하여 모든 표시는 예상대로입니다. 그러나 문제는 관심 계수)의 추정치가 것입니다.
는 평균과 중앙값이 17 일 때 약 2에서 26 사이이지만 의 추정치는 30에서 40 사이입니다 (사양에 따라 다름)!
약점 IV : 우리의 첫 번째 생각은 악기가 너무 약하기 때문이라고 생각했다. 즉, 내인성 변수와 크게 관련이 없지만 실제로는 그렇지 않은 것 같습니다. 계측기의 약점을 검사하기 위해 Finlay, Magnusson 및 Schaffer의 weakiv-package를 사용하여 가정 위반에 대한 강력한 테스트를 제공합니다 (패널 데이터가 있고 SE가 단위 수준).
AR- 검정에 따르면, 2 단계 계수에 대한 95 % 신뢰 구간의 하한은 16과 29 사이입니다 (사양에 따라 다름). 거부 확률은 0에 가까운 모든 값에 대해 실질적으로 1입니다.
영향력있는 관측 : 각 단위가 개별적으로 제거되고 각 관측치가 개별적으로 제거되고 단위 군집이 제거 된 상태에서 모형을 추정하려고 시도했습니다. 실제적인 변화는 없습니다.
제안 된 솔루션 : 누군가는 계측 된 의 예상 효과를 원래의 메트릭 (0-1)으로 예측하지 말고 예측 된 버전의 메트릭으로 요약해야한다고 제안했습니다 . 는 -0.01 내지 0.1의 범위이며, 평균 및 중앙값은 약 0.02이고 SD는 약 0.018이다. 우리의 추정 결과 요약한다면 에 한 SD 증가 말하자면, 작성자 즉 될 (다른 사양은 거의 동일한 결과를 수득). 이것은 훨씬 합리적 일 것입니다 (아직도 여전히 실용적입니다). 완벽한 솔루션 인 것 같습니다. 아무도 본 적이없는 것 외에는 모두가 원래 내생 변수의 메트릭을 사용하여 2 단계 계수를 해석하는 것처럼 보입니다.
질문 : IV 모델에서 예측 된 버전의 메트릭을 사용하여 내인성 변수의 증가에 대한 추정 효과 (실제로 LATE)를 요약하는 것이 맞습니까? 이 경우 해당 메트릭은 예측 된 확률입니다.
참고 : 이진 내생 변수가 있어도 2SLS를 사용합니다 (첫 단계를 LPM으로 설정). 다음은 Angrist & Krueger (2001) :“구조 변수 및 식별에 대한 검색 : 수요와 공급에서 자연 실험까지”) Adams, Almeida 및 Ferreira (2009)에서 사용 된 3 단계 절차도 시도했습니다. 설립자 -CEO와 회사 성과 간의 관계 이해”. 후자의 접근 방식은 2SLS가 뒤 따르는 프로 빗 모델로 구성되며 작고 합리적인 계수를 산출하지만 0-1 미터법 (약 9-10)으로 해석하면 여전히 매우 큽니다. Cerulli의 ivtreatreg에있는 probit-2sls-option에서와 동일한 수동 계산 결과를 얻습니다.
etregress/treatreg
?