회귀 이해-모델의 역할


46

매개 변수를 얻으려는 함수를 모르는 경우 회귀 모델을 어떻게 사용할 수 있습니까?

나는 한 자녀가 모유를 먹인 어머니가 후기에 당뇨병에 걸릴 가능성이 적다는 연구 결과를 보았다. 이 연구는 약 1000 명의 어머니를 대상으로 한 조사에서 이루어졌으며 기타 요인에 대한 통제가 이루어졌으며 로그 선형 모델이 사용되었습니다.

이것은 당뇨병의 가능성을 결정하는 훌륭한 기능 (지수 적으로)에 로그가있는 선형 모델로 깔끔하게 변환되고 여성의 모유 수유가 통계적으로 유의한지 여부를 결정하는 모든 요소를 ​​고려한다는 것을 의미합니까?

확실하지 않은 것이 있지만 모델을 어떻게 알 수 있습니까?


대단히 감사합니다. 나는 당신의 답변에 대해 생각하는 데 약간의 시간을 보내고 싶습니다. 아마도, 당신의 견해가 마음에 들지 않는다면 당신의 견해를 위해 내 용어로 쓰십시오. 테일러 시리즈에서 나온이 프로세스 설명이 마음에 듭니다. 나는 회귀에 대한 지식을 끔찍하게 그리고 경제학자들을위한 경제와 수학을 통해 얻어야했으며 테일러와의 관계는 결석으로 주목할 만하다.
Jonathan Andrews

귀하의 계정을 병합했습니다. 그러나 stats.stackexchange.com/users/login에 등록 하여 다시 풀지 않도록하십시오.

답변:


43

회귀를 실제 형태의 선형 근사치로 보는 데 도움이됩니다. 진정한 관계는

y=f(x1,...,xk)

설명하는 요소 와 함께 . 그런 다음 첫 번째 테일러 근사 는 0입니다.x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

여기서 은 근사 오류입니다. 이제 및 회귀가 있습니다.εα0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

따라서 진정한 관계를 알지 못하더라도 이 작 으면 근사값을 얻습니다. 이로부터 유용한 결론을 도출 할 수 있습니다.ε


1
안녕, 아주 좋은 설명이지만 테일러 시리즈 확장의 "시그마"부분을 이해하지 못합니다. 여기에서 찾은이 방정식을 어떻게 줄일 수 있습니까? mathworld.wolfram.com/TaylorSeries.html "두 변수에있는 실제 함수의 테일러 시리즈"아래에서
Arun

1
@Arun, 식 (32)에서 을 취 합니다. n=1
mpiktas 1

18

mpiktas의 답변을 보완하지만 지금까지 언급되지 않은 답변의 다른 측면은 다음과 같습니다.

"그렇지 않지만 모델 구조를 가정하자마자 데이터와 비교하여 확인할 수 있습니다 ."

잘못 될 수있는 두 가지 기본 사항은 다음과 같습니다. 함수 의 형태 . 예를 들어 로그에서 선형 적이 지 않습니다. 따라서 예상 값에 대한 적절한 잔차를 플로팅하여 시작합니다. 또는 조건부 분포 의 선택 , 예를 들어 포아송에 비해 관측 된 수가과 분산되었습니다. 따라서 동일한 모형의 음 이항 버전에 대해 테스트하거나 추가 공변량이 추가 변형을 설명하는지 확인합니다.

또한 특이 치, 영향력있는 관찰 및 기타 여러 가지 사항을 확인하려고합니다. 이러한 종류의 모델 문제를 확인하는 데 적합한 곳은 Cameron and Trivedi 1998의 5 장입니다. (역학 지향적 연구자들이 시작하기에 더 좋은 곳이있을 것입니다. 아마도 다른 사람들이 제안 할 수도 있습니다.)

이러한 진단에서 모델이 데이터에 적합하지 않다고 표시되면 모델의 관련 측면을 변경하고 전체 프로세스를 다시 시작합니다.


1
+1 이것은 모든 것을 손으로 흔드는 것을 막는 열쇠입니다. 당신은 모르지만 무언가를 시도한 후 그것이 얼마나 잘 일치하고 어떤 방식으로 데이터와 일치하지 않는지보십시오.
Wayne

15

훌륭한 첫 질문! 나는 mpiktas의 대답에 동의한다. 즉, 짧은 대답은 "그렇지 않다. 그러나 그들은 대략 올바른 답을 제공하는 올바른 모델에 대한 근사치를 갖기를 희망한다".

역학의 전문 용어에서이 모델의 불확실성은 ' 잔류 혼동 ' 으로 알려진 원인 중 하나 입니다. Steve Simon의 페이지 '잔여 혼란이란 무엇입니까?'를 참조하십시오. 더 짧고 더 많은 수학적 치료를 위해 의학 통계학 (Subscription req'd)에 관한 Heiko Becher의 1992 년 논문 , 또는 American Journal of Epidemiology 에있는 Davey Smith & Sterne의 최신 논문 인 Fewell (subscription req'd) ).

이것이 작은 효과의 역학이 어렵고 그 결과가 논란의 여지가있는 한 가지 이유입니다. 측정 된 효과 크기가 작 으면 설명으로 잔류 혼란이나 다른 편견을 배제하기가 어렵습니다.


1
OP가 말하고있는 것처럼 보이는 모델의 잘못된 사양은 잔류 혼란과는 다소 다르다고 주장합니다. 공란에는 공변량이 필요합니다. 노출과 결과의 잘못된 사양 만으로 회귀를 조일 수 있습니다 .
Fomite

13

George Box 의 유명한 인용은 "실제로 모든 모델이 잘못되었지만 일부는 유용합니다"라는 인용문이 있습니다 . 이와 같은 모델을 피팅 할 때, 우리는 데이터 생성 프로세스와 반응과 공변량 간의 물리적, 실제 세계 관계에 대해 생각하거나 시도해야합니다. 이러한 관계를 데이터에 맞는 모델로 표현하려고합니다. 또는 달리 말하면 데이터와 일치합니다. 이러한 경험적 모델이 생성됩니다.

그것이 유용한 지 아닌지는 나중에 결정됩니다-예를 들어, 모델에 적합하지 않은 여성에 대해 훌륭하고 신뢰할만한 예측을 제공합니까? 모형 계수가 해석 가능하고 과학적으로 사용됩니까? 효과 크기가 의미가 있습니까?


3

당신이 이미 얻은 답변은 훌륭한 답변이지만, 역학자의 관점에서 (희망적으로) 보완적인 답변을 드리겠습니다. 나는 이것에 대해 세 가지 생각을 가지고 있습니다.

첫째, 그들은하지 않습니다. 참조 : 모든 모델이 잘못되었습니다. 일부 모델이 유용합니다. 목표는 기본 함수의 "진실"로 간주되는 하나의 결정적인 숫자를 생성하는 것이 아닙니다. 목표는 주변 함수의 불확실성을 정량화하여 해당 함수 의 추정치 를 생성하는 것인데, 이는 기본 함수의 합리적이고 유용한 근사치입니다.

큰 효과 측정의 경우 특히 그렇습니다. "진정한"관계가 2.5 또는 3.2 인 경우 3.0의 상대 위험을 발견 한 연구의 "탈취"메시지는 실제로 다르지 않습니다. @onestop이 언급했듯이 0.9, 1.0 및 1.1의 차이 가 건강 및 정책 관점에서 크게 나타날 수 있기 때문에 작은 효과 측정 추정치로 인해 더 어려워집니다 .

둘째, 대부분의 역학 논문에 숨겨진 과정이 있습니다. 이것이 실제 모델 선택 프로세스 입니다. 우리는 우리가 생각한 모든 모델이 아니라 우리가 끝낸 모델을보고하는 경향이 있습니다. 소규모의 관측 연구 분석에 관여하는 수많은 모델 구축 단계, 개념 다이어그램, 진단, 적합 통계, 민감도 분석, 컴퓨터 맹세 및 화이트 보드 낙서 등이 있습니다.

당신 가정을 하는 동안 , 그들 중 다수는 또한 당신이 확인할 수있는 가정입니다.

셋째, 때로는 그렇지 않습니다. 그리고 우리는 회의에 가서 그것에 대해 서로 논쟁합니다.)

역학의 견과에 관심이 있고 연구를 수행하는 방법에 관심이 있다면 Rothman, Greenland 및 Lash의 Modern Epidemiology 3rd Edition 을 시작하는 것이 가장 좋습니다 . Epi 연구가 수행되는 방법에 대해 적당히 기술적이고 매우 훌륭한 개요입니다.


1
+1, 이것은 여기있는 것을 보완하는 것입니다. 다른 많은 좋은 것들이 이미 존재하더라도 유용한 기여를 할 수 있다는 것을 아는 것이 좋습니다.
gung-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.