설명 적 모델링에서 편견을 최소화하는 이유는 무엇입니까? (Galit Shmueli의“설명 또는 예측”)


15

이 질문은 Galit Shmueli의 논문 "설명 또는 예측"을 참조 합니다.

구체적으로 1.5 절, "설명과 예측이 다르다"에서 Shmueli 교수는 다음과 같이 썼다.

설명 모델링에서 초점은 기본 이론의 가장 정확한 표현을 얻기 위해 편향을 최소화하는 데 있습니다.

내가 신문을 읽을 때마다 당황했습니다. 추정의 편향을 최소화하는 것은 어떤 의미에서 기본 이론을 가장 정확하게 표현합니까?

또한 교수 Shmueli의 이야기를 지켜 여기 JMP 발견 정상 회의 2017에서 전달, 그녀는 말한다 :

수축 모델, 앙상블과 같은 것들, 당신은 그것들을 보지 못할 것입니다. 이러한 모델은 설계 상 전체 바이어스 / 분산을 줄이기 위해 바이어스를 도입하기 때문입니다. 그것이 그들이 거기에없는 이유입니다. 그렇게하는 것이 이론적으로 의미가 없습니다. 왜 모델을 의도적으로 편향되게 하시겠습니까?

이것은 실제로 내 질문에 불을 밝히지 않고 단순히 이해하지 못하는 주장을 재차 강조합니다.

이론에 많은 매개 변수가 있고이를 추정하기 위해 데이터를 스캔하지 않은 경우 추정 오차는 분산에 의해 좌우됩니다. 이 상황에서 능선 회귀와 같은 편향 추정 절차를 사용하는 것이 왜 부적절합니까?



@Adrian 훌륭한 질문입니다. 나는 또한 그에 대한 철저한 답변을보고 싶습니다!
Matthew Drury

답변:


6

이것은 실제로 좋은 질문입니다. 생태계 및 사회 과학 연구에서 통계 모델을 사용하는 세계를 둘러 볼 필요가 있습니다 (내가 본 것부터 설명 또는 예측 작업을 수행하는 통계 학자 및 데이터 마이너는 일반적으로 다루지 않습니다) 이 형태의 편향). 이 기사에서 사용한 "바이어스"라는 용어는 계량 경제학자와 사회 과학자들이 경험적 연구에서 인과 관계를 유추하는 데 심각한 위험으로 취급하는 것입니다. 통계 모델과 그 기초가되는 인과 이론 모델차이를 나타냅니다 . 관련 용어는 "모델 사양"으로, 목표가 인과 적 설명 일 때 "이론과 관련하여 회귀 모델을 올바르게 지정"하는 것의 중요성으로 인해 계량 경제학에서 많이 배운 주제입니다. 보다간단한 설명 은 사양에 대한 Wikipedia 기사를 참조하십시오 . 주요 오규정 문제는 "OVB (Omitted Variable Bias)"라고하는 과소 규격 인데, 여기서는 이론에 따라 회귀에서 설명 변수를 생략합니다 (이론에 따르면). 설명 변수 중 하나 이상이 포함됩니다. 이러한 유형의 편향의 의미를 설명하는 이 깔끔한 설명 )을 참조하십시오 . 이론적 인 관점에서 OVB는 모델에서 인과 관계를 유추하는 기능에 해를 끼칩니다.

내 논문의 부록에서 설명하거나 예측하려면? 불특정 한 ( "잘못된") 모델이 때때로 더 높은 예측력을 갖는 방법을 보여주는 예가 있습니다. 그러나 이제 이것이 "좋은 인과 설명 모델"의 목표와 모순되는 이유를 알 수있을 것입니다.


2
나는 예측 모델과 설명 모델에 대해 여전히 많은 혼란이 있다고 생각합니다. 저는 한 주요 보험 회사의 데이터 과학자와 인터뷰를하면서 팀에서 예측 또는 설명 모델을 구축 할 수 있는지 물었습니다. 그는 "정말 중요하지 않다"고 말했다. 나는 그가 그 차이를 알지 못했다고 생각한다.
RobertF
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.