경제학 연구자들이 왜 이항 반응 변수에 선형 회귀를 사용합니까?


13

최근에 나는 경제학 (나는 익숙하지 않은 분야)에 관한 몇 가지 논문을 읽어야했다. 내가 주목 한 한 가지는 응답 변수가 이진 일지라도 OLS를 사용하여 피팅 된 선형 회귀 모델은 어디에나 있다는 것입니다. 내 질문은 따라서 :

경제학 분야에서 로지스틱 회귀와 같이 왜 선형 회귀가 선호됩니까? 이것은 단순히 일반적인 관행입니까 아니면 적극적으로 옹호하는 절차입니까 (서류, 교사 등)?

이항 반응과 함께 선형 회귀를 사용하는 것이 나쁜 아이디어 일 수 있거나 대체 방법이 무엇인지 묻지 않습니다. 반대로, 나는이 두 가지 질문에 대한 답을 알고 있기 때문에 사람들이 왜이 설정에서 선형 회귀를 사용하는지 묻습니다.


5
예를 들어 줄 수 있습니까?
Stephan Kolassa

7
이것은 정확하지 않습니다. 경제 및 계량 경제학에는 로짓 및 프로 빗 및 관련 모델에 대한 방대한 문헌이 있습니다. 나는 외부인이기도하고 상대적인 사용을 쉽게 정량화 할 수는 없지만, 문헌은 "유비쿼터스"(모든 곳에서 의미)를 반박하기에 충분히 크다. 왜 소위 선형 확률 ​​모델이 사용되는지에 대한 질문이 있으며 설명을 찾기가 어렵거나 어렵다고 생각하지 않습니다. 이해하기 쉽고 때로는 적절하게 작동합니다.
Nick Cox

3
경제학은 수학과 매우 우연한 관계입니다. 나는 그것에 대해 너무 걱정하지 않을 것입니다.
Sycorax는 Reinstate Monica

1
@ Sycorax 나는 비슷한 느낌을 가지고 있습니다. 그리고 수학이 허술하다면 여전히 "작동하는"것을 만들 수 있습니다.
Haitao Du

1
@Sycorax 그것은 사실이 아니며 공정하지도 않습니다. 확실히, "당신은 그것에 대해 너무 걱정하지 않을 것"이라고 말하는 것은 그 질문에 대한 책임이 없습니다. 하위 분야에 따라 경제학은 수학 및 통계와 매우 밀접한 관계를 가질 수 있습니다. 경제학자들은 종종 인과 적 추론에 관심을 갖고 있지만 (많은 사회 과학과 마찬가지로) 관측 데이터도 다루어야한다. 이것은 경제적 인 직관을 가져 오지 않고 강한 수학적 엄격함을 확립하는 것을 매우 어렵게 만듭니다.
StAtS

답변:


18

Dave Giles의 계량 경제 블로그에 게시이 블로그 게시물 은 대부분 선형 확률 ​​모델 (LPM) 의 단점 을 설명합니다 .

그러나 그는 연구원들이 그것을 사용하기로 선택한 이유에 대한 짧은 목록을 포함 합니다.

  • 계산이 간단합니다.
  • "마진 효과"를 해석하는 것이 더 쉽습니다.
  • "링크 기능"이 잘못 지정 될 위험이 없습니다.
  • 내생 더미 회귀 분석기가있는 경우 Logit 또는 Probit에 합병증이 있습니다.
  • LPM, Logit 및 Probit 모델의 예상 한계 효과는 특히 표본 크기가 큰 경우 일반적으로 매우 유사합니다.

LPM이 로짓 또는 프로 빗과 비교하여 일반적으로 사용되는 모든 것임을 모르지만 위의 이유 중 일부는 나에게 합리적입니다.


2
+1, 선형 확률 ​​모델이라는 용어 덕분에 이전에는 몰랐습니다.
Haitao Du

1
Angrist와 Pischke의 "Mostly Harmless Econometrics"에 더 많은 정보가 있습니다.
shf8888

2

다른 서류를 읽을 때 비슷한 질문이있었습니다. 그리고 Education Data Mining 커뮤니티의 질문과 같이 이와 관련된 많은 질문을했습니다. 왜 물류 손실 대신 확률에 제곱 손실을 사용합니까?

여기에 나는 많은 개인적인 의견을 제시 할 것입니다.


많은 실제 사용 사례에서 손실 기능이 그다지 중요하지 않다고 생각합니다. 일부 연구원은 제곱 손실에 대해 더 많이 알고 그 시스템을 구축 할 수 있으며 여전히 작동하며 실제 문제를 해결합니다. 연구자들은 물류 손실이나 힌지 손실을 결코 알지 못하고 시도해 볼 수 있습니다. 또한 최적의 수학 모델을 찾는 데 관심이 없을 수도 있지만 이전에는 아무도 시도하지 않은 실제 문제를 해결하려고합니다.

이것은 또 다른 예입니다. 내 질문에 대한 대답을 확인하면 모두 비슷합니다. 분류에서 다른 손실 함수를 선택하면 약 0-1 손실에 미치는 영향은 무엇입니까?


더 많은 생각 : 기계 학습 연구는 어떤 모델을 선택하고 모델을 최적화하는 방법에 많은 시간을 할애 할 수 있습니다. 이는 머신 러닝 연구원이 더 많은 데이터를 수집하거나 더 많은 측정 값을 얻을 수있는 능력이 없기 때문입니다. 그리고 머신 러닝 연구원의 직업은 특정 실제 문제를 더 잘 해결하지 않고 더 나은 수학을 얻고 있습니다.

반면에 현실에서는 데이터가 더 좋으면 모든 것을 능가합니다. 따라서 신경망 또는 임의의 포리스트를 선택하는 것은 그리 중요하지 않을 수 있습니다. 이러한 모든 모델은 실제 문제를 해결하기위한 도구로 기계 학습을 사용하려는 사람과 유사합니다. 수학이나 도구 개발에 관심이없는 사람은 시스템을 개선하기 위해 특정 도메인 지식을 사용하는 데 더 많은 시간을 할애 할 수 있습니다.

의견에서 언급했듯이. 그리고 수학이 허술하다면 여전히 작동하는 것을 만들 수 있습니다.


1
(+1) 그것은 많은 "인용"hxd인데, 그들은 의사 소통하기 위해 무엇을 의미합니까? "작동"은 "작동한다고 생각하지만 작동하지 않는다"또는 "소르 타 작동"을 의미합니까?
Matthew Drury

의견을 보내 주셔서 감사합니다. 나는 개인적인 감정이 많았고 그것을 쓰는 법을 모른다고 생각합니다. 나는 그들 중 많은 사람들이 공식적이거나 너무 주관적이지 않다고 생각합니다. 그래서 나는 많은 따옴표를 가지고 있습니다.
Haitao Du

개인적 의견으로 태그하는 것이 더 분명하다고 생각합니다. (... 아닌 실제 예를 들어, 또는 그 것이다) "이것은 개인적인 의견에 경계하지만, SVM을 빨아"이것은 내가 학생들과 수업 시간에 할 것입니다
매튜 드 루리

@MatthewDrury 글쓰기에 대해 조언 해 주셔서 감사합니다. 대답에는 따옴표가 없습니다!
Haitao Du
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.