고정 효과를 사용하고 클러스터 SE를 사용하는 경우는 언제입니까?


19

당신은 개인이 그룹 내 위치 데이터의 단일 단면 (학교 내에서 예를 들어 학생)이 있고 형태의 모델 추정하고자하는 가정 개인 수준의 특성과의 벡터이다 상수를.Y_i = a + B*X_iXa

이 경우, 관찰되지 않은 군간 이질성 B은 귀하의 독립적 인 관심 변수와 상관 관계가 있기 때문에 귀하의 포인트 추정치 및 SE를 바이어스한다고 가정 하십시오.

하나의 옵션은 그룹 (학교)별로 SE를 클러스터링하는 것입니다. 다른 하나는 그룹 FE를 포함시키는 것입니다. 다른 하나는 둘 다 사용하는 것입니다. 이러한 옵션 중에서 선택할 때 고려해야 할 사항은 무엇입니까? 그룹별로 SE를 클러스터링하고 그룹 FE를 사용하는 이유는 특히 명확하지 않습니다. 특정한 경우에는 그룹 내에 35 개의 그룹과 5,000 명의 개인이 중첩되어 있습니다 . 나는 이 pdf 에서 논의를 따랐 지만, 왜 그리고 언제 클러스터 된 SE와 고정 효과를 모두 사용할 수 있는지에 대해서는 명확하지 않습니다.

(다중 레벨 모델에 적합하다고 제안하는 대신 클러스터 된 SE와 FE의 장단점에 대해 논의하십시오.)

답변:


22

그룹 고정 효과 및 / 또는 군집 조정 표준 오류를 사용하는 두 가지 접근 방식은 군집 (또는 패널) 데이터와 관련된 여러 가지 문제를 고려하므로 이들을 별개의 접근 방식으로 분명히 볼 것입니다. 종종 두 가지를 모두 사용하려고합니다.

우선, 클러스터 조정 표준 오차는 클러스터 내 상관 관계 또는 이분산성 (고정 효과 추정기가 더 이상 가정하지 않을 경우를 고려하지 않은 경우)으로 간주됩니다. 긴 패널과이 문제와 관련된 다양한 문제 . : 카메론과 밀러이 주제에 대한 새로운 종이도 있습니다 클러스터 - 강력한 추론에 대한 실무자의 가이드 당신을위한 흥미로운 일이 될 수 있습니다. 분산 공분산 행렬을 모델링하지 않고 클러스터 내 상관 관계가 존재한다고 의심되는 경우 SE의 바이어스가 심각 할 수 있으므로 클러스터 강력한 표준 오류를 사용하는 것이 좋습니다 (이분산성보다 훨씬 더 문제가 많습니다.이 주제에 대한 토론은 Angrist & Pischke III.8 장 을 참조하십시오. 그러나 충분한 클러스터가 필요합니다 (Angrist와 Pischke는 경험적으로 40-50을 말합니다). 군집 조정 표준 오차는 표준 오차를 고려하지만 포인트 추정치는 변경하지 않습니다 (표준 오차는 보통 증가합니다)!

고정 영향 추정은 관찰되지 않은 시간 불변 이질성을 고려합니다 (앞서 언급 한 것처럼). 이것은 좋거나 나쁠 수 있습니다. 한편, 일관된 추정값을 얻으려면 가정이 적습니다. 반면에 유용 할 수있는 많은 분산을 버립니다. Andrew Gelman과 같은 일부 사람들은 고정 효과보다 계층 적 모델링 을 선호 하지만 여기에는 의견이 다릅니다. 고정 영향 추정은 점 및 간격 추정치 모두를 변경합니다 (또한 표준 오차가 더 높음).

요약하자면 클러스터 간 표준 오류는 클러스터 간 및 클러스터 내 상관 관계 모델링을 방해하지 않고 클러스터가 충분할 경우 클러스터 된 데이터와 관련된 가능한 문제를 해결하는 쉬운 방법입니다. 고정 효과 추정은 특정 변동 만 사용하므로 변동이 적은 것을 기준으로 추정 할 것인지 여부는 모델에 따라 다릅니다. 그러나 추가 가정이 없으면 고정 효과 추정은 분산 행렬에 대한 클러스터 내 상관과 관련된 문제를 처리하지 않습니다. 군집 강건한 표준 오차도 고정 효과 추정의 사용과 관련된 문제를 고려하지 않습니다.


2
좋은 반응. 남은 주요 질문은 왜 둘 다 원할 것인가입니다. Imbens와 Wooldridge는 이것을 어느 정도 커버합니다.
QuestionAnswer

13

고정 효과는 데이터에서 서로 다른 그룹간에 관찰되지 않은 이질성을 제거하기위한 것입니다.

FE 모델을 사용하기로 한 결정이 "작은 변형의 사용 여부"에 따라 결정된다는 승인 된 응답의 의미에 동의하지 않습니다. 종속 변수가 패널의 그룹에 따라 체계적으로 변하는 관찰 할 수없는 변수의 영향을받는 경우이 변수와 관련된 변수의 계수가 바이어스됩니다. X 변수가 무작위로 지정되지 않은 한 (그리고 관측 데이터와 함께 절대 포함되지 않는 한), 생략 된 변수 바이어스에 대한 인수를 만드는 것은 일반적으로 매우 쉽습니다. 당신 은 할있습니다좋은 제어 변수 목록을 사용하여 생략 된 변수 중 일부를 제어 할 수 있지만 강력한 식별이 가장 중요한 목표라면 광범위한 제어 목록조차도 중요한 독자가 결과를 의심 할 여지를 남길 수 있습니다. 이 경우 일반적으로 고정 효과 모델을 사용하는 것이 좋습니다.

군집 된 표준 오차는 각 그룹 내에서 관측치가 iid (독립적으로 동일하게 분포 된)가 아닌 상황을 설명하기위한 것입니다.

전형적인 예는 시간이 지남에 따라 회사 패널에 대한 많은 관측치가있는 경우입니다. 확고한 수준의 고정 효과를 설명 할 수 있지만, 시간이 지남에 따라 종속 변수에 설명 할 수없는 일부 변형이 여전히있을 수 있습니다. 일반적으로 시계열 데이터로 작업 할 때는 일반적으로 그룹 내 오류 조건에서 시간적 직렬 상관을 가정하는 것이 안전합니다. 이러한 상황은 클러스터 SE의 가장 확실한 사용 사례입니다.

몇 가지 예 :

치료를 무작위로 할당하는 실험 데이터가 있지만 시간이 지남에 따라 각 개인 / 그룹에 대해 반복적으로 관찰하는 경우 고정 효과를 생략하는 것이 정당하지만 SE를 클러스터링하고 싶을 것입니다.

또는 실험적이지 않은 데이터에 대해 그룹당 많은 관측치가 있지만 그룹 내 각 관측치가 더 큰 그룹의 iid 추첨으로 간주 될 수있는 경우 (예 : 많은 학교의 관측치가 있지만 각 그룹이 무작위로 추출 된 하위 집합 임) 학교에서 온 학생들의 경우) 고정 효과를 포함하고 싶지만 클러스터 된 SE는 필요하지 않습니다.


2

이 답변은 훌륭하지만 Abadie et al. (2019) "클러스터링에 대한 표준 오류를 언제 조정해야합니까?" 고정 효과를 사용하면 클러스터의 주된 이유는 클러스터 전체의 처리 효과에 이기성이 있기 때문입니다. 예를 들어 군집 (예 : 회사, 국가)이 모집단의 군집 중 일부인 경우 (예 : 추론하는) 다른 이유가 있습니다. 클러스터링은 디자인 문제가 논문의 주요 메시지입니다. 맹목적으로하지 마십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.