문제가 선형 회귀에 적합하다는 결론


12

Montgomery, Peck 및 Vining의 선형 회귀 분석 소개를 사용하여 선형 회귀를 배우고 있습니다. 데이터 분석 프로젝트를 선택하고 싶습니다.

설명 회귀 변수와 반응 변수 사이에 선형 기능 관계가 있다고 의심되는 경우에만 선형 회귀가 적합하다는 순진한 생각을했습니다. 그러나 많은 실제 응용 프로그램이이 기준을 충족시키는 것 같지는 않습니다. 그러나 선형 회귀는 매우 널리 퍼져 있습니다.

숙련 된 통계학자가 내 신발에 있는지, 선형 회귀 분석에 적합한 질문 + 데이터를 찾고 있는지에 대해 생각할 수있는 프로젝트 측면은 무엇입니까?


3
기술을 배우고 있으며 그것이 어디에서 작동하는지 알고 싶습니다. 그러나 숙련 된 통계 학자 (통계학을 염두에 둔 과학자)에게있어 상황은 전적으로 다른 방식입니다. 문제와 데이터가 있으며, 어떤 모델과 방법이 최선의 선택인지에 대한 질문입니다. 첫 번째 회귀 선형 회귀는 단 하나의 맛이라는 것을 알게 될 것입니다. 경험을 가진 사람들은 Poisson 회귀, 로짓 회귀 등으로 건너 뛰고 매개 변수의 선형성도 더 일반적인 구조와 쉽게 결합 할 수 있습니다.
Nick Cox

물론 관측치가 잠재적으로 자기 상관 될 때 시계열 mdels
IrishStat

3
실제로 선형 모델은 관계가 비선형이라는 것을 알고 있어도 좌우로 사용됩니다. 선형 모델을 1 차 근사치, 일종의 다변량 테일러 확장이라고 생각하십시오.
Aksakal

답변:


12

설명 회귀 변수와 반응 변수 사이에 선형 기능 관계가 있다고 의심되는 경우에만 선형 회귀가 적합하다는 순진한 생각을했습니다. 그러나 많은 실제 응용 프로그램이이 기준을 충족시키는 것 같지는 않습니다.

이것은 "선형 회귀"에서 "선형"이 무엇인지에 대한 올바른 이해가 아닙니다.

x 사이의 관계 는 선형 형태로 가정 되지 않습니다 (모든 기본 예제가 사용자를 오도 할 가능성이 있음).yx

"선형"은 매개 변수에서 선형 인 모형을 말하며, 와 일부 x 사이의 비선형 관계 는 확실히 그렇게 모델링 될 수 있습니다.yx

여기에 단일 예측 변수가있는 예가 있지만 곡선 모델은 다중 회귀 분석에 더 적합합니다. 여기서 예측 변수 (x 변수, 독립 변수)의 여러 함수가 회귀 분석에서 발생할 수 있으며 이는 많은 유연성을 허용합니다. 여기에는 예를 들어 다항식 회귀가 포함됩니다. 여기에서 몇 가지 토론과 예를 참조 하십시오 .

그러나 곡선 관계를 맞추기 위해 예측 변수를 변환 할 수 있다는 사실을 허용하면 모수의 선형성은 변환 된 예측 변수의 선형성과도 일치합니다.

또한 많은 문제가 선형에 가깝거나 (적어도 고려되는 값의 범위에 걸쳐), 약간의 곡률을 식별 할 수 없을 정도로 시끄럽고, 증가하거나 감소하는 관계에 대한 다양한 간단한 모델이 할 수 있습니다. 이 경우 선형 선택이 적합하고 이해하기에 가장 단순하고 단순 할 수 있습니다.

숙련 된 통계학자가 내 신발에 있는지, 선형 회귀 분석에 적합한 질문 + 데이터를 찾고 있는지에 대해 생각할 수있는 프로젝트 측면은 무엇입니까?

회귀를 적용 할 문제를 찾을 수있는 유일한 시간은 제가 가르치는 좋은 모범을 찾으려고 할 때입니다. 실제로 통계 작업을 수행 (설명하거나 가르치는 대신) 할 때는 방법에 적합한 데이터를 선택하는 대신 관심있는 문제 (및 데이터의 특성)에 맞는 방법을 선택합니다.

예를 들어 목수를 상상해보십시오. 목수는 바퀴살 대패를 선택하고 말을하지 않습니다 "내가 사용할 수있는 에?". 오히려 목수는 해결해야 할 문제가 있으며 문제의 특성 ( "무엇을 만들려고합니까?"및 "어떤 종류의 나무를 사용하고 있습니까?"등)을 고려할 때 특정 도구가있을 수 있습니다. 다른 사람들보다 더 관련이 있습니다. 때때로 제한하거나 선택을 안내 할 수 있습니다 사용할 수있는 도구 (당신이하지 않는 경우 바퀴살 대패, 당신은 다른 뭔가를 할 수 있도록 할 수 있습니다 ... 아니면 그냥 바퀴살 대패를 구매 갈해야 할 수도 있습니다).

그러나 포켓 통계 전문가가 도움 되고 선형 회귀에 적합한 문제를 찾으려고 가정합니다. 그런 다음 다양한 회귀 가정과 중요 시점을 고려할 것을 제안 할 수 있습니다. 몇 가지를 언급하겠습니다.

E(y|g(x))g(x)gx=xE(y|x)=a+bx

다중 회귀를 사용할 수 있다면 그다지 큰 문제는 아닙니다. 예를 들어 3 차 회귀 스플라인을 사용하여 상당히 일반적인 관계에 맞출 수 있습니다.

가짜 회귀 문제를 이해하지 않는 한 시간이 지남에 따라 데이터를 정리하는 것이 좋습니다. 횡단면 문제가 있습니다.

xx

x

가설 검정, 신뢰 구간 또는 예측 구간에 관심이있는 경우 일반적인 회귀 가정이 더 중요 할 수 있습니다 (그러나 이러한 가정을하지 않는 대안이 있으며 경우에 따라 일부 가정은 그렇지 않을 수도 있음) 어쨌든 특히 중요합니다).

따라서 적어도 알아 두어야 할 것은 사용중인 추론 적 절차를 도출 할 때의 가정과 특정 문제 (예 : 일반적인 가설 검정을 수행 할 때의 중요성), 정규성은 가정이지만 큰 표본에서는 가정이 중요하지 않을 수 있지만, 일정 분산의 가정은 더 문제가 될 수 있습니다.

회귀 가정을 논의하는 많은 게시물이 있으며, 언제 작성해야하는지, 얼마나 중요한지, 심지어 고려할 순서를 논의하는 게시물도 있습니다.


좋은 대답이지만 질문에 완전히 대답하지는 않는다고 생각합니다. 숙련 된 통계학자가 내 신발에 있는지, 선형 회귀 분석에 적합한 질문 + 데이터를 찾고 있는지에 대해 생각할 수있는 프로젝트 측면은 무엇입니까? 답이 남아 있습니다.
Dawny33

@ Dawny33 나는 나중에 이것에 더 많은 것을 추가하려고합니다-타이핑하는 동안 몇 가지 물건이 생겨서 원래 의도했던 전체 답변을 작성하지 못했습니다. 나는 내가 있었던 문장을 끝내기 위해 시간을 가졌으며 이제는 하루나 이틀 동안 그 문장으로 돌아올 수 없습니다. 실제로 나는 그 안에있는 모든 오타를 바로 잡을 시간조차 없었다. (그동안 답변을 게시하는 것을 망설이지 말아야합니다.) 반면에, 질문의 전제가 잘못되었다고 지적하면 OP가 원래 의도했던 것과 다른 것을 묻고 자 할 수 있습니다. 중앙 전제 실패)
Glen_b-복지국 모니카

예를 들어, 발생할 수있는 한 가지 새로운 질문은 "예시가 있습니까?"입니다.
Glen_b-복지 주 모니카

@Glen_b 감사합니다. "선형"은 매개 변수에서 선형 인 모델을 나타냅니다 . 내가 잘못 쓴다면 미안하지만, 다른 의미는 아닙니다. 키워드가 작동했습니다 .
cwackers 2016 년

@Glen_b 그들은 다양한 회귀 가정을 고려할 것을 제안 할 것 입니다. 다시 합의했습니다. 나는 이것에 대해 명시 적이 지 않았지만 Q는 도메인 지식에 관한 것입니다. LR 분석을 위해 고려중인 시스템에서 숙련 된 통계학자가 무엇을 찾고 있는지 궁금합니다. 따라서 회귀와 선형 적으로 기능적으로 관련이 있고 회귀와의 동시 관계가 부가 적이라는 제안이 있습니다.
cwackers 2016 년

4

YYYYYX잘). 수년간의 경험을 통해 혈압과 같은 특정 변수는 선형 모델에서 잘 작동하는 경향이 있으며 다른 변수 (예 : 혈액 화학 측정)는 그렇지 않습니다.

YY


행동의 측면을 지적 해 주셔서 감사합니다. 회귀 변수의 변환은 생각했지만 응답 변수는 생각하지 않았습니다. 그러나 이제 잔차 분포를 재구성하기 위해 나중에 어떻게 사용되는지 알 수 있습니다. 일부 사진을 작성해 주셔서 감사합니다. 매우 유용한 게시물입니다.
cwackers 2016 년

3

@Glen_b는 매우 좋은 대답을했지만 언급했듯이 끝내지 못했습니다.

그래서 마지막 질문에 관해서 :

숙련 된 통계학자는이 질문을하지 않을 것입니다. 글렌이 지적했듯이, 문제는 도구가 다른 방법이 아닌 사용하도록 지시합니다.

선형 회귀와 같은 기술을 배우려고한다면 이미 작동 한 예제를 사용하지만 실제 데이터가있는 예제는 사용하기 쉬운 데이터를 구성하지 않았습니다. 예제 별 회귀 모델링 과 같은 책이 지침을 제공 할 수 있습니다.

그러나 회귀 문제를 보는 첫 번째 단계 중 하나는 선형 회귀가 실제로 적합한 지 여부를 결정하는 것입니다.


숙련 된 통계학자는이 질문을하지 않을 것입니다. 그렇습니다. 왜 Q를 "신발로"검증했습니다. 책 추천에 너무 감사합니다. 사본을 추적하겠습니다. 많은 예제는 이야기의 적어도 절반에 도움이 될 것이며 카운터 예제는 나머지 절반입니다.
cwackers 2016 년

아, 견적! 4 판 2 페이지부터 : 회귀 분석을 사용하여 해결할 수있는 질문 (자체 작업 분야, 연구 또는 관심 분야)에 대해 독자들에게 의견을 제시합니다.
cwackers 2016 년

0

잔차의 선형성, 예측 변수 범위에 걸친 분산의 동질성, 회귀선에 영향을 줄 수있는 극단적 인 값 없음, 독립적 인 관측 등 여러 가지 반응이 충족되어야하는 가정에 대해 언급했습니다. 잔차 그림은 대부분의 회귀 프로그램으로 생성하기가 쉽고 일부 패키지는 일부 자동 (SAS)을 제공합니다.

한 사람이 y 변형에 대해 이야기했습니다. 이것은 일부 영역에서 일반적인 관행이지만, 편향되어 해석 할 수없는 결과를 초래하는 관행입니다. 결과를 원래 메트릭으로 다시 변환하려고하면 바이어스가 나타납니다. 잔차의 분포 가정과 일치하는 잔차 패턴이있는 다른 유형의 회귀로 이동하는 것이 좋습니다. 링크 개념을 소개하는 Agresti의 범주 형 데이터 분석 소개 3 장을 참조하십시오 . 많은 회귀 교과서들도 일반화 된 선형 모형을 소개합니다.


나는 변형에 대한 비관을 공유하지 않습니다. 원래의 모든 변환 후에는 매우 임의적입니다. 대칭 분포로 잔차를 변환하고 얻는 경우 예측 된 값의 역변환은 원래 척도에서 예측 된 중앙값입니다. 예측 된 중앙값은 매우 유용합니다. 원래 척도에서 예측 된 수단을 얻으려면 번짐 추정기를 사용할 수 있습니다.
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.