언제 데이터 기반 기준을 사용하여 회귀 모델을 지정할 수 있습니까?


20

많은 회귀 모델 사양 (예 : OLS)이 데이터 집합의 가능성으로 간주 될 때 여러 비교 문제가 발생하고 p- 값과 신뢰 구간이 더 이상 신뢰할 수 없다고 들었습니다. 이에 대한 한 가지 극단적 인 예는 단계적 회귀입니다.

데이터 자체를 사용하여 모델을 지정하는 데 도움이되는시기는 언제이며 이것이 올바른 방법이 아닌 경우는 언제입니까? 모델을 형성하기 위해 항상 주제에 기초한 이론이 필요합니까?

답변:


9

일반적으로 변수 선택 기법 (단계별, 역방향, 순방향, 모든 하위 집합, AIC 등)은 모집단에 존재하지 않는 표본 데이터에서 확률 또는 랜덤 패턴을 활용합니다. 이것에 대한 기술 용어는 과적 합이며, 작은 데이터 세트에는 배타적이지 않지만 특히 문제가됩니다. 최 적합을 기준으로 변수를 선택하는 절차를 사용하면 이 특정 표본 에 적합하게 보이는 모든 랜덤 변이가 추정 및 표준 오차에 기여합니다. 이것은 둘 다 문제입니다 모델의 예측과 해석에 됩니다.

특히, r- 제곱이 너무 높고 모수 추정치가 바이어스 (0에서 너무 멀다)되고 모수에 대한 표준 오차가 너무 작아서 (p- 값 및 모수 주위의 간격이 너무 작거나 좁음)

이러한 문제에 대한 최선의 방어선은 신중하게 모델을 구축하고 이론, 논리 및 이전 지식을 기반으로하는 예측 변수를 포함시키는 것입니다. 변수 선택 절차가 필요한 경우, 과적 합을 설명하기 위해 모수 및 표준 오차를 조정하여 모수 추정치 (수축 방법)에 불이익을주는 방법을 선택해야합니다. 일반적인 수축 방법에는 리지 회귀, 최소 각도 회귀 또는 올가미가 있습니다. 또한 훈련 데이터 세트와 테스트 데이터 세트 또는 모델 평균을 사용한 교차 검증은 과적 합의 영향을 테스트하거나 줄이는 데 유용 할 수 있습니다.

Harrell은 이러한 문제에 대한 자세한 논의를위한 훌륭한 자료입니다. 하렐 (2001). "회귀 모델링 전략."


오랜만에 접수! 기술적 인 문제에 대한 자세한 개요에 감사 드리며 Harrell의 책을 살펴 보겠습니다.
통계

7

내가 온 사회 과학 맥락에서 문제는 (a) 예측 또는 (b) 집중 연구 문제에 관심이 있는지 여부입니다. 목적이 예측 인 경우 데이터 기반 접근 방식이 적합합니다. 초점이 맞춰진 연구 질문을 조사하는 것이 목적이라면 어떤 회귀 모델이 질문을 구체적으로 테스트하는지 고려하는 것이 중요합니다.

예를 들어, 작업 수행이 작업 성능을 예측하기 위해 선택 테스트 세트를 선택하는 경우 목표는 작업 성능 예측을 최대화하는 것으로 볼 수 있습니다. 따라서 데이터 중심 접근 방식이 유용 할 것입니다.

반대로 성능에 영향을 미치는 성격 변수와 능력 변수의 상대적인 역할을 이해하려면 특정 모델 비교 방법이 더 적합 할 수 있습니다.

일반적으로 중점을 둔 연구 문제를 탐색 할 때 최적의 예측을 가진 모델을 개발하는 것과 달리 작동하는 기본 원인 프로세스에 대해 설명하는 것이 목표입니다.

단면 데이터를 기반으로 프로세스에 대한 모델을 개발하는 과정에서 다음 사항에주의해야합니다. (a) 이론적으로 결과 변수의 결과로 생각할 수있는 예측 변수 포함. 예를 들어, 자신이 훌륭한 수행자라는 신념은 직무 수행에 대한 좋은 예측 인자이지만, 이는 자신의 성과를 관찰 한 사실에 의해 적어도 부분적으로 발생했을 가능성이 있습니다. (b) 모두 동일한 기본 현상을 반영하는 다수의 예측 변수를 포함합니다. 예를 들어 20 가지 항목을 포함하여 삶의 만족도를 다양한 방식으로 측정합니다.

따라서, 집중된 연구 질문은 영역 별 지식에 훨씬 더 의존합니다. 이것은 아마도 데이터 중심 접근 방식이 사회 과학에서 덜 자주 사용되는 이유를 설명하는 데 도움이 될 것입니다.


4

모델 선택과 관련된 모든 테스트와 단계가 독립적이지 않기 때문에 Bonferoni 또는 유사한 수정을 수행하여 회귀 분석에서 변수 선택을 조정할 수 없다고 생각합니다.

한 가지 접근법은 하나의 데이터 세트를 사용하여 모델을 공식화하고 다른 데이터 세트에 대해 추론하는 것입니다. 이것은 훈련 세트와 테스트 세트가있는 모든 시간을 예측할 때 수행됩니다. 다른 분야에서는 흔하지는 않습니다. 아마도 데이터가 너무 귀여워서 모든 단일 관측 값을 모델 선택 및 추론에 사용하려고하기 때문일 것입니다. 그러나 귀하의 질문에 언급 한 바와 같이 단점은 실제로 추론이 오도된다는 것입니다.

잘 발달 된 이론이 없기 때문에 이론 기반 접근법이 불가능한 상황이 많이 있습니다. 사실 이것은 이론이 모델을 제안하는 경우보다 훨씬 일반적이라고 생각합니다.


4

Richard Berk는 최근 데이터 스누핑 및 통계적 추론의 문제를 시뮬레이션을 통해 보여주는 기사를 가지고 있습니다. Rob이 제안한 것처럼 단순히 여러 가설 검정을 수정하는 것보다 문제가 많습니다.

모델 선택 후 통계적 추론 작성자 : Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, Vol. 26, No. 2 (2010 년 6 월 1 일), 217-236 쪽.

여기 PDF 버전


(+1) 링크 감사합니다! 이 관련 질문 인 stats.stackexchange.com/questions/3200/…에 관심이있을 수 있습니다 . 부담없이 참여하십시오.
chl

@ chl, 나는 그 질문에 대한 이미 훌륭한 답변에 아무것도 추가 할 수 없다고 생각합니다. 나는 실제 포스터가 질문의 맥락에 기초한 예측 만이 아니라 인과 추론에 정말로 관심이 있다고 생각하기 때문에 Brendan의 반응은 매우 신랄하다고 생각합니다.
Andy W

예, 나는 그의 대답을 생각하고있었습니다. 데이터 준설 문제 (모델 / 변수 선택 문제 또는 인과 추론에 대한 정확한 정보는 아님)에 대한 고찰을 시작했지만 지금까지 응답이 거의 없습니다. 자신의 아이디어를 추가하고 싶다면 흥미로울 것입니다 : stats.stackexchange.com/questions/3252/…
chl

2

귀하의 질문을 올바르게 이해하면 문제에 대한 답변보다 가설 수에 따라 p- 값을 수정하는 것입니다.

예를 들어 Holm-Bonferoni 보정에서는 p- 값을 기준으로 가설 (= 다른 모델)을 정렬하고 p- 값 / 지수보다 ap samller가있는 것을 거부합니다.

주제에 대한 자세한 내용은 Wikipedia 에서 찾을 수 있습니다.


1
별도의 질문에 대한이 답변을 읽고 왜 그런 식으로 p- 값을 조정하는 것이 최선의 해결책이 아닐 수 있는지 stats.stackexchange.com/questions/3200/…
Andy W
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.