패널 데이터와 일치하는 성향 점수


13

나는 개인의 종단 데이터 세트를 가지고 있으며 그들 중 일부는 치료를 받았으며 다른 사람들은 그렇지 않았습니다. 모든 개인은 출생부터 18 세까지의 표본에 있으며 치료는 그 범위 사이의 어떤 나이에 발생합니다. 치료 기간은 사례마다 다를 수 있습니다. 성향 점수 일치를 사용하여 출생 연도부터 18 세까지 각 쌍을 추적 할 수 있도록 치료 연도와 대조 단위를 출생 연도의 정확한 일치와 쌍으로 일치시키고 싶습니다. 일치 후에는 차이의 차이 전략을 사용하여 치료 효과를 추정하는 것입니다.

내가 당면한 문제는 패널 데이터와 일치하는 것입니다. 나는 Stata의 psmatch2명령을 사용하고 성향 점수 일치를 사용하여 가정 및 개인 특성에 일치합니다. 일반적으로 패널 데이터의 경우 연령마다 다른 최적의 일치 항목이 있습니다. 예를 들어, A가 치료되고 B와 C가 대조군이고, 이들 모두가 1980 년에 태어난 경우 A와 B는 1980 년에 0 세에 일치 할 수 있고 A와 C는 1981 년에 1 세에 일치 할 수 있습니다. . 또한 A는 이전 연도의 자체 전처리 값과 일치 할 수 있습니다.

이 문제를 해결하기 위해 모든 시변 변수의 평균을 취하여 일치하는 것이 샘플 기간 동안 평균적으로 가장 유사한 개인을 식별하고 0 세에서 18 세까지 각 연령 그룹에 대해 별도로 일치시킵니다. 불행히도 이것은 여전히 ​​연령대별로 각 치료 단위에 대해 다른 통제 단위와 일치합니다.

누군가가 Stata의 패널 데이터와 쌍으로 일치하는 방법을 알려 줄 수 있다면 대단히 감사하겠습니다.

답변:


9

기본적으로 일치 절차와 관련된 모든 특성을 가진 와이드 형식 데이터 세트를 작성하고이 단면 데이터 세트에서 일치를 수행 한 다음 ID를 사용하여 패널 데이터 세트에서 일치하는 쌍을 식별해야합니다. 자세한 내용은 다음과 같습니다.

  1. reshape넓은 형식의 데이터 집합을 만드는 데 사용 합니다. 전처리 변수를 일치 절차에서 사용하려는 방식으로 형식화하십시오. 한 개인에 대해 여러 개의 관측치가있는 경우 변수의 평균을 얻을 수 있지만 다른 방법을 사용할 수도 있습니다 (health1, health2와 같은 동일한 변수에 대한 여러 관측치를 유지하고 일치하는 모든 변수를 사용할 수도 있음) ). 목표는 개인마다 하나의 관측치를 갖는 데이터 세트를 갖는 입니다.

  2. 이 데이터 세트를 사용하여와 일치하는 절차를 수행하십시오 psmatch2.

  3. 일치하는 사례에 대한 정보를 원본 데이터 세트와 병합하십시오. 정말 STATA를 알고하지 않기 때문에 내가 여기에 세부 사항에 대해 확실하지 않다 등 일치하지 않는 경우 드롭 psmatch2하지만 난 당신이 아이디어를 얻을 생각합니다.

이 단계를 사용하면 모든 전처리 정보를 기반으로 사례를 일치시킬 수 있으며 치료 단위당 하나만 일치합니다.


3
이 답변이 실제로 도움이 되었기 때문에 왜이 게시물이 다운 투표되었는지 알 수 없습니다. 다시 투표하겠습니다. 고마워 그렉!
Andy

5

Stata 또는 내가 알고 있는 다른 소프트웨어 에서는 그렇게 할 수 없습니다 .

패널 데이터 기술로 바이어스 매칭 추정기를 패치하려는 경우 다음과 같은 방법이 있습니다. 일치가 선택 바이어스를 모두 처리하지는 않지만 일부 선택 바이어스를 처리한다고 가정 할 수 있지만 바이어스가 시간이 지남에 따라 일정하게 유지된다고 가정 할 경우 각 기간에 대해 별도의 일치 추정값을 구성하고 시간을 따름으로써 바이어스의 시간 불변 부분을 제거 할 수 있습니다 차이점.

하자 전 치료 기간 수와 포스트합니다. 미처리 상태 결과 만족할 경우ttY0

E[Y0t|X,D=1]E[Y0t|X,D=0]=E[Y0t|X,D=1]E[Y0t|X,D=0]=Bias,
이면 및 ,Δ M의 t =BA가이야Δ M의 t ' -Δ M의 t =ΔTT를ΔtM=ΔTT+BiasΔtM=BiasΔtMΔtM=ΔTT

Heckman, Ichimura, Smith and Todd 1998 Econometrica , Eichler 및 Lechner 2002 노동 경제학 논문이 이러한 접근 방식의 예입니다. 반면에 150 개의 처리 된 관측치로는이 접근 방식이 충분하지 않을 수 있습니다.


1
이 두 논문 (때문에 패널 데이터를 쌍으로 개인과 일치 할 수 있어야 용지 1 , paper2 )뿐만 아니라 그것을 할. 불행히도 저자들은 어떻게했는지 정확하게 밝히지 않았습니다. Heckman et al (1998)에 설명 된 아이디어는 페어 단위 일치 후에 Diff-in-Diff를 사용하는 이유입니다.
Andy

그들이 패널 매칭을하고 있다는 것은 분명하지 않지만 절차가 모호하다는 것은 옳습니다. 저자는 pscore를 작성하여 다른 사람들을 도울 의지를 나타냅니다. 아마도 그들에게 전자 메일을 보내면 내용이 명확해질 것입니다. 그들이 말하는 것을보고하십시오. 중요한 질문입니다.
Dimitriy V. Masterov 2018

0

단계 :

  1. Greg가 자세히 언급했듯이, 전처리 수단 또는 별도의 전처리 기간에서 단면 데이터 세트를 사용하여 일치를 생성 할 수 있습니다.

  2. 전체 패널을 사용하여
    a에 지표 변수를 할당 합니다. 개별 치료
    b. 치료 기간 동안, 치료 된 개체에 대해 치료가 발생하자마자 후자는 0과 같습니다.

    처리 된 기간이 0에서 1로 변경되는 시점은 개인마다 다르며 처리되지 않은 경우 1로 바뀌지 않으므로 처리 된 일치 항목과 처리되지 않은 일치 항목에 동일한 시작 지점을 지정해야합니다. 이것은 직관적이지만 지금까지 찾지 못한이 접근법을 정당화하는 좋은 참고 자료를 여전히보고 싶습니다.

회귀 설정은 다음과 같습니다.

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

상호 작용 항은 치료 효과를 나타냅니다.


-2

nnmatch 명령을 사용해 보셨습니까 ?

나는이 명령을 사용하며 매우 포괄적입니다. 서로 다른 매칭 알고리즘 및 경우에 따라 성향 점수가 일부 통제 그룹 개인에게 동일합니다. 물론,이 경우의 처리는 k- 최근 접 이웃이나 커널 등을 취하는 경우 일치 알고리즘에 달려 있습니다.


언급 한 기사에서 패널 데이터에 대한 언급이 없습니다. 패널 데이터에 사용 했습니까? 그렇다면 구체적으로 설명하고 OP의 질문에 대답하는 코드를 제공하십시오.
통계

정확한 일치는 쉽지만 전체 nnmatch는 일치하는 ID를 현재 데이터 세트 내에 저장하지 않고 별도의 ID에 저장하기 때문에 더 복잡합니다. 각 연령 그룹마다 원래 데이터와 병합해야하는 데이터 세트가 하나씩 있습니다. 일치하는 특성이 원본 데이터에서 개인을 고유하게 식별하지 않기 때문에이 경우 병합이 작동하지 않습니다. 불행히도 이것은 해결책을 제공하지 않습니다.
Andy
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.