계측기가없는 관측 데이터 모델에 대해 무엇을 말할 수 있습니까?


10

과거에는 회귀 (및 패널 모델 또는 GLM과 같은 관련 모델)가 관측 데이터 (예 : 통제 된 실험에 의해 생성되지 않은 데이터)에 사용되는 여러 분야의 논문과 관련하여 여러 가지 질문을 받았습니다. 많은 경우에 (항상 그런 것은 아니지만 시간이 지남에 따라 관찰 된 데이터) 그러나 도구 변수를 도입하려고 시도하지 않는 경우.

나는 (중요한 변수가 누락되었을 때 편견과 관련된 문제를 설명하는 것과 같이) 여러 가지 비판을 받았지만 다른 사람들은이 주제에 대해 나보다 훨씬 더 많은 지식을 가지고 있기 때문에 나는 물었다.

  1. 그러한 상황에서 관계 (특히 인과 관계 결론에 국한되지는 않음)에 관한 결론을 도출하려는 주요 문제 / 결과는 무엇입니까?

  2. 기기가없는 상태에서 이러한 모델에 맞는 연구를 통해 유용한 정보를 얻을 수 있습니까?

  3. 그러한 모델링과 관련된 문제에 대한 좋은 참고 자료 (도서 또는 논문)는 무엇입니까 (바람직하게 요구하는 사람들은 통계가 많지 않은 다양한 배경을 가지고 있기 때문에 결과에 대한 명확한 비 기술적 동기가 있음), 사람들이 비판에서 언급 할 수 있기 때문에 종이? 기기에 관한주의 사항 / 문제에 대한 논의도 유용 할 것입니다.

(도구 변수에 대한 기본 참조는 here 이지만 추가 할 것이 있으면 도움이 될 것입니다.)

도구를 찾고 사용하는 좋은 실제 사례에 대한 포인터는 보너스이지만이 질문의 핵심은 아닙니다.

[그런 질문들이 나에게 올 때 다른 사람들에게 좋은 답변을 제시 할 것입니다. 하나 또는 두 개의 예를 추가 할 수 있습니다.]

답변:


8

따라서 대부분의 분야는 아니지만 대부분의 분야는 GLM 유형 모델을 관측 데이터에 맞추는 것과 관련이 있습니다. 대부분의 경우 도구에 대한 지식이 부족하거나 중요한 도구가 부족하여 도구 변수가 드물게 나타납니다. 질문을 순서대로 해결하려면 :

  1. 물론 주요 이슈는 노출과 관심 결과 모두와 관련이없는 관찰되지 않은 변수에 의한 일종의 잔류 혼란이다. 평범한 언어 버전은 귀하의 답변이 틀릴 수도 있지만 반드시 어떻게 또는 왜 그런지 알 필요는 없습니다. 해당 정보에 대한 결정 (특정 처리 사용 여부, 환경의 X가 위험한지 등)은 잘못된 정보를 사용하여 결정됩니다.

  2. 나는 이것들에 대한 답이 '그렇다'고 주장한다. 대부분의 경우, 이들 연구는 반드시 좋은 도구가 필요하지 않거나 무작위 화가 불가능한 무언가를 찾으려고 노력하고 있기 때문이다. 따라서 그 대안은 "그냥 추측"입니다. 이 모델들은 우리의 생각을 공식화하고 답변에 가까워지려는 탄탄한 시도이며, 다루기가 더 쉽습니다.

예를 들어 답변을 정 성적으로 변경하기 위해 편향이 얼마나 심각해야하는지 (예 : "X는 나쁘다 ...") 알 수없는 요인이 있다고 생각하는지 판단 할 수 있습니다. 데이터 외부에 숨어있는 힘의.

예를 들어, HPV 감염이 자궁 경부암과 매우 밀접한 관련이 있다는 발견은 중요한 발견이며, 널까지 모든 방향으로 향하게하는 측정 할 수없는 요인의 강도는 엄청나게 강해야합니다.

또한 계측기는이 문제를 해결하지 못합니다. 측정되지 않은 연결이 없을 때만 작동하며 무작위 시험에서도 문제 (치료와 컨트롤 사이의 차이가 떨어짐, 무작위 화 후의 행동 변화, 실제에 대한 일반화 가능성) 대상 인구)도 약간 광택이납니다.

  1. Rothman, Greenland 및 Lash는 현대 역학 최신판을 썼습니다 .

8

Fomite가 보여준 역학 학자의 견해와는 달리, 도구 변수는 경제학에있어 필수적인 도구 키트로, 초기에 상당히 가르쳐지고 있습니다. 그 이유는 요즘 경제 연구에서 인과 관계 질문에 답하려고 노력하는 데 큰 초점을 맞추고 있으며, 이는 단지 상관 관계가 무관심한 것으로 간주되는 범위까지 확대되기 때문입니다. 주요한 한계는 경제학이 분야라는 것인데, 무작위 실험을하는 것이 본질적으로 어렵다. 부모의 조기 사망이 아동의 장기 교육 성과에 미치는 영향을 알고 싶다면 대부분의 사람들은 무작위 통제 추적을 통해 이것을 거부 할 것입니다. 이 유인물 MIT의 코스에서 페이지 실험과가 어떤 다른 문제 3-5에서 설명합니다.

각 포인트를 차례로 해결하려면 :

  1. 대답해야 할 질문에 따라 실험이 아닌 방법을 사용하지 않고 관측 데이터에 대한 분석을 무효화 할 수있는 변수는 생략되지 않습니다. 선택 문제, 측정 오류, 역 인과성 또는 동시성이 중요 할 수 있습니다. 주요 문제 는 데이터 분석가가이 설정의 한계를 알고 있어야한다는 것입니다. 이것은 학계 시나리오에서 빠르게 발견되기 때문에 주로 비즈니스 사례를 가리 킵니다. 때때로 고객에게 정보를 제공하기 위해 가격 탄력성을 추정하려는 시장 분석가를 봅니다 (예 : 가격을 증가 시키면 수요가 얼마나 감소합니까)x%), 그들은 수요 방정식을 추정하고 수요와 공급이 동시에 결정되고 하나가 다른 것에 영향을 미친다는 사실을 완전히 잊거나 무시합니다. 따라서 결과 는 데이터 자체가 아닌 데이터의 한계와 관련하여 연구원 / 데이터 분석가의 인식에 훨씬 더 의존하지만 결과는 사소한 것에서부터 사람들의 삶에 부정적인 영향을 미치는 범위까지 다양합니다.

  2. Di이 치료의 효과를 계산하고, 관찰 할 수없는 것들에 대해 동일한 작업을 수행하고, 관찰 된 치료 효과를 설명하기 위해 관찰 할 수없는 것들의 이동이 얼마나 큰지 물어볼 수 있습니다. 관찰되지 않은 변화가 매우 커야한다면 우리는 우리의 발견에 대해 조금 더 신뢰할 수 있습니다. 이에 대한 참조는 Altonji, Elder and Taber (2000) 입니다.
  3. 아마도 모든 응용 경제학자는 Angrist and Pischke (2009) "Mostly Harmless Econometrics"를 추천 할 것 입니다. 이 책은 주로 대학원생과 연구원을 대상으로하지만, 수학 부분을 건너 뛰고 직감도 얻을 수 있습니다. 먼저 실험 설정에 대한 아이디어를 소개 한 다음 생략 된 변수, 동시성, 선택 등으로 인한 내 생성과 관련하여 OLS 및 그 한계에 대해 설명하고 적용되는 문헌의 예제를 잘 활용하여 도구 변수를 광범위하게 논의합니다. 또한 약한 도구 또는 너무 많은 도구를 사용하는 것과 같은 도구 변수의 문제에 대해서도 설명합니다. 앵글리스트와 크루거 (2001) 또한 도구 변수와 잠재적 인 함정에 대한 비 기술적 개요를 제공하며 여러 연구와 도구를 요약 한 표도 있습니다.

아마도이 모든 것이 전형적인 대답보다 훨씬 길었을 것입니다. 그러나 질문은 매우 광범위합니다. 도구 변수 (종종 찾기가 어렵다)가 우리 주머니에서 유일한 총알이 아니라는 점을 강조하고 싶습니다. 차이 차이, 회귀 불연속 설계, 일치 또는 고정 효과 회귀와 같은 관측 데이터에서 인과 적 효과를 발견하는 다른 비 실험적 방법이 있습니다 (동의자가 시간 불변 인 경우). 이들 모두는 Angrist and Pischke (2009)와 처음에 연결된 유인물에서 논의됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.