설명 회귀 변수와 반응 변수 사이에 선형 기능 관계가 있다고 의심되는 경우에만 선형 회귀가 적합하다는 순진한 생각을했습니다. 그러나 많은 실제 응용 프로그램이이 기준을 충족시키는 것 같지는 않습니다.
이것은 "선형 회귀"에서 "선형"이 무엇인지에 대한 올바른 이해가 아닙니다.
와 x 사이의 관계 는 선형 형태로 가정 되지 않습니다 (모든 기본 예제가 사용자를 오도 할 가능성이 있음).와이엑스
"선형"은 매개 변수에서 선형 인 모형을 말하며, 와 일부 x 사이의 비선형 관계 는 확실히 그렇게 모델링 될 수 있습니다.와이엑스
여기에 단일 예측 변수가있는 예가 있지만 곡선 모델은 다중 회귀 분석에 더 적합합니다. 여기서 예측 변수 (x 변수, 독립 변수)의 여러 함수가 회귀 분석에서 발생할 수 있으며 이는 많은 유연성을 허용합니다. 여기에는 예를 들어 다항식 회귀가 포함됩니다. 여기에서 몇 가지 토론과 예를 참조 하십시오 .
그러나 곡선 관계를 맞추기 위해 예측 변수를 변환 할 수 있다는 사실을 허용하면 모수의 선형성은 변환 된 예측 변수의 선형성과도 일치합니다.
또한 많은 문제가 선형에 가깝거나 (적어도 고려되는 값의 범위에 걸쳐), 약간의 곡률을 식별 할 수 없을 정도로 시끄럽고, 증가하거나 감소하는 관계에 대한 다양한 간단한 모델이 할 수 있습니다. 이 경우 선형 선택이 적합하고 이해하기에 가장 단순하고 단순 할 수 있습니다.
숙련 된 통계학자가 내 신발에 있는지, 선형 회귀 분석에 적합한 질문 + 데이터를 찾고 있는지에 대해 생각할 수있는 프로젝트 측면은 무엇입니까?
회귀를 적용 할 문제를 찾을 수있는 유일한 시간은 제가 가르치는 좋은 모범을 찾으려고 할 때입니다. 실제로 통계 작업을 수행 (설명하거나 가르치는 대신) 할 때는 방법에 적합한 데이터를 선택하는 대신 관심있는 문제 (및 데이터의 특성)에 맞는 방법을 선택합니다.
예를 들어 목수를 상상해보십시오. 목수는 바퀴살 대패를 선택하고 말을하지 않습니다 "내가 사용할 수있는 이 에?". 오히려 목수는 해결해야 할 문제가 있으며 문제의 특성 ( "무엇을 만들려고합니까?"및 "어떤 종류의 나무를 사용하고 있습니까?"등)을 고려할 때 특정 도구가있을 수 있습니다. 다른 사람들보다 더 관련이 있습니다. 때때로 제한하거나 선택을 안내 할 수 있습니다 사용할 수있는 도구 (당신이하지 않는 경우 가 바퀴살 대패, 당신은 다른 뭔가를 할 수 있도록 할 수 있습니다 ... 아니면 그냥 바퀴살 대패를 구매 갈해야 할 수도 있습니다).
그러나 포켓 통계 전문가가 도움 이 되고 선형 회귀에 적합한 문제를 찾으려고 가정합니다. 그런 다음 다양한 회귀 가정과 중요 시점을 고려할 것을 제안 할 수 있습니다. 몇 가지를 언급하겠습니다.
E(y|g(x))g(x)gx∗=xE(y|x∗)=a+bx∗
다중 회귀를 사용할 수 있다면 그다지 큰 문제는 아닙니다. 예를 들어 3 차 회귀 스플라인을 사용하여 상당히 일반적인 관계에 맞출 수 있습니다.
가짜 회귀 문제를 이해하지 않는 한 시간이 지남에 따라 데이터를 정리하는 것이 좋습니다. 횡단면 문제가 있습니다.
xx
x
가설 검정, 신뢰 구간 또는 예측 구간에 관심이있는 경우 일반적인 회귀 가정이 더 중요 할 수 있습니다 (그러나 이러한 가정을하지 않는 대안이 있으며 경우에 따라 일부 가정은 그렇지 않을 수도 있음) 어쨌든 특히 중요합니다).
따라서 적어도 알아 두어야 할 것은 사용중인 추론 적 절차를 도출 할 때의 가정과 특정 문제 (예 : 일반적인 가설 검정을 수행 할 때의 중요성), 정규성은 가정이지만 큰 표본에서는 가정이 중요하지 않을 수 있지만, 일정 분산의 가정은 더 문제가 될 수 있습니다.
회귀 가정을 논의하는 많은 게시물이 있으며, 언제 작성해야하는지, 얼마나 중요한지, 심지어 고려할 순서를 논의하는 게시물도 있습니다.