선형 회귀에 대한 가장 일반적인 오해는 무엇입니까?


70

다른 연구자들과 협력 한 경험이있는 사람들에게 선형 회귀에 대한 가장 일반적인 오해는 무엇입니까?

나는 일반적인 오해를 미리 생각하기에 유용한 운동이 될 수 있다고 생각한다.

  1. 사람들의 실수를 예상하고 잘못된 생각이 틀린지 분명히 설명 할 수 있어야합니다

  2. 내가 약간의 오해를 겪고 있는지 깨달으십시오!

내가 생각할 수있는 몇 가지 기본 사항 :

독립 / 종속 변수는 정규 분포해야합니다

정확한 해석을 위해 변수를 표준화해야합니다

다른 사람?

모든 답변을 환영합니다.


5
이것은 가능성있는 목록을 요구하기 때문에 CW가되어야하며, 하나는 객관적으로 '올바른 대답'이라고 말하기가 어렵습니다.
gung

내가 아는 많은 사람들은 여전히 ​​사용하는 컴퓨팅 환경이 비선형 회귀를 잘 지원하더라도 데이터에 선형화를 수행하고 그것을 그대로 유지해야한다고 주장합니다. (선형화는 물론 비선형 피팅의 시작점으로 유용하지만 이러한 사람들은이를 알지 못합니다.)
JM은 통계학자가 아닙니다.

1
@ gung : 커뮤니티 위키는 여전히 일관입니까? CW는 주로 네트워크 전체 에서 더 이상 사용되지 않으며 , 한계가없고 광범위하게 요구되는 큰 목록 질문을 교도소 무료 카드에서 가져 오거나 다른 사람들이 처음에 주제에 대해 논의했을 때 그들이 얻었을 수도있는 평판이 좋은 사람들을 강탈하는 것은 결코 결코 아닙니다. 더 이상 질문을 던질 수있는 유일한 방법은 중재자에게 요청하는 것입니다.
Robert Harvey

1
하나님이 세상을 선형으로 만드셨다면 비선형 회귀는 없을 것입니다.
Mark L. Stone

1
@RobertHarvey : 예, 그것은 이다 (불행히도 내 의견) CrossValidated에 일이 아주 많이 여전히. 우리는 그것에 관한 격렬한 메타 토론 ( 예 : 이것 )을 가지고 있었지만 현재 상태는 CW 상태가 열려있을 수있는 주제에 대해 고려되는 모든 의견 기반 또는 큰 목록 질문에 대해 시행되고 있다는 것입니다.
amoeba

답변:


38

틀린 전제 : 은 DV와 IV 사이에 강한 관계가 없음을 의미합니다. β^0
비선형 기능 관계는 풍부하지만 관계가 선형이거나 거의 선형이어야한다고 가정 할 경우 이러한 많은 관계에 의해 생성 된 데이터는 종종 거의 0의 기울기를 생성합니다.

특히, 다른 잘못된 전제에서 연구원들은 종종 많은 입문 회귀 교과서에서 가르치는 것처럼 IV의 다항식 확장에 대해 DV의 일련의 회귀를 구축하여 "비선형 성을 테스트" 한다고 가정 합니다 (예 : 이어서 ,이어서 에 의해Yβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+ε등). 다만도 DV와 IV 간의 비선형 함수 관계를 나타낼 수없는 직선으로, 포물선 잘 그대로 비선형 관계 무한대 (예를 들어 정현파, cycloids 스텝 함수, 포화 효과, S- 커브 등을 나타낼 수없는 광고 인해서 ). 대신 특정 기능 형태 (예 : 런닝 라인 스무더, GAM 등)를 가정하지 않는 회귀 접근법을 사용할 수 있습니다 .

제 거짓 전제 예상 수가 증가한다는 것이다 파라미터 것은 반드시 통계적으로 전력 손실을 초래한다. 실제 관계가 비선형이고 추정하기 위해 여러 개의 매개 변수가 필요한 경우 이는 거짓 일 수 있습니다 (예 : "브로큰 스틱"기능은 직선 의 절편기울기 조건뿐만 아니라 기울기가 변하는 지점 과 그 정도를 요구합니다) 에 의해 경사 변화 또한 추정치) : 잘못 지정된 모델 (예 : 직선)의 잔차가 상당히 커져 (적절하게 지정된 기능적 관계와 관련하여) 거부 확률이 낮아지고 신뢰 구간과 예측 구간이 넓어 질 수 있습니다 (추정 된 추정치 외에도) .


4
(+1) Quibbles : (1) 입문용 텍스트조차도 모든 곡선이 다항식 함수라는 것을 암시하지는 않습니다. 다항식 함수를 통해 주어진 범위에서 충분히 충분히 근사 할 수 있다고 생각합니다. 그래서 그들은“특정한 기능적 형태를 취하지 않는 회귀 접근법”의 분류에 속하며,“하이 파라미터 (hyperparameter)”에 의해 위글을 지정합니다. 스플라인 기준으로 회귀 매듭, 다항식 기준으로 회귀 정도. (I 다항식의 깃발을 흔들며 아니에요 - 그것은 잘 알려진 그들은 끝에서 우리가 원하는 것보다 더 많은 주위 도리깨하는 경향이있다 -, ...
Scortchi

2
... 그들에게 정당한 이유를 제시 함.) (2) 정현파는 선형 모델 프레임 워크 내에서 적합 할 수 있습니다. 비선형 모델 (사각형 쌍곡선)을 이용한 채도 효과; &씨. 물론 달리 말하지는 않았지만주기 또는 점근선이 있음을 알고 있으면 해당 구속 조건을 모델에 적용하면 도움이 될 것입니다.
Scortchi

2
@Scortchi 나는 더 이상 동의 할 수 없었다! (실제로 무한한 수의 다항식이 주어지면 모든 함수를 완벽하게 표현할 수 있습니다.) 간결한 것을 목표로하고있었습니다. :)
Alexis

2
@Alexis 다항식으로 Conway의 기본 13 함수를 근사화하십시오. :)
Solomonoff의 비밀 2

1
또는 ...χQ
Stephan Kolassa 2016 년

22

데이터 만 측정 오류가 발생 한다고 가정하는 것이 매우 일반적입니다 (또는 적어도 이것이 우리가 고려해야 할 유일한 오류라고 가정). 그러나 이것은 측정 에서 오류의 가능성과 결과를 무시합니다 . 이는 변수가 실험적 통제를받지 않는 관측 연구에서 특히 심각 할 수 있습니다 .yxx

회귀 희석 또는 회귀 감쇠 는 Spearman (1904)에 의해 인식되는 현상으로, 간단한 선형 회귀에서 추정 회귀 기울기가 독립 변수에 측정 오차가 존재하여 0으로 편향됩니다. 실제 기울기가 양수라고 가정합니다. 점의좌표를 지 터링하는 효과(점을 가로로 "흐리게"표시하는 것이 가장 쉽게 나타남)는 회귀선을 덜 가파르게 만드는 것입니다. 직관적으로,가큰 포인트는 양의 측정 오류로 인해 발생하기 쉬우 며,값은의 실제 (오류가없는) 값을 반영 할 가능성이 높으므로 실제 선보다 낮습니다. 관찰 된xxyxx .

더 복잡한 모델에서 변수의 측정 오류 는 모수 추정값에 더 복잡한 영향을 줄 수 있습니다. 있습니다 변수 모델의 오류 계정으로 이러한 오류를 취할. Spearman은 이변 량 상관 계수의 감쇄를위한 보정 계수를 제안 했으며,보다 복잡한 상황을 위해 다른 보정 계수가 개발되었습니다. 그러나 이러한 수정은 특히 다변량의 경우와 혼란스러운 상황에서 어려울 수 있으며 수정이 진정한 개선인지 여부에 대해서는 논란의 여지가 있습니다 (예 : Smith and Phillips (1996) 참조).x

그래서 나는 이것이 하나의 가격에 대한 두 가지 오해라고 생각합니다. 한편으로 우리가 을 쓰는 방식 은 "모든 오류는 " 는 것을 의미 한다고 생각하는 것은 실수입니다. 독립 변수에서 측정 오류가 실제로 발생할 가능성이 있습니다. 반면, 무릎 통증 반응과 같은 모든 상황에서 측정 오류에 대해 "교정"을 맹목적으로 적용하는 것은 바람직하지 않을 수 있습니다 (처음에는 측정 오류를 줄이기위한 조치를 취하는 것이 좋습니다) .y=Xβ+εy

(아마도 직교 회귀 , 데밍 회귀총 최소 제곱 과 같이 점차 일반적인 순서로 다른 일반적인 변수 오류 모델에 연결해야합니다 .)

참고 문헌


그 주 : 이것은 "최소 제곱"또는 "직교 회귀"라고하는 기술을 사용하는 이유 중 하나입니다 (읽고있는 참조에 따라 다름). 평범한 최소 제곱보다 훨씬 복잡하지만 모든 점이 오류로 오염 된 경우에는 가치가 있습니다.
JM은 통계학자가 아닙니다.

@JM Thanks-그렇습니다. 실제로 원래 TLS에 링크를하려고했지만 Smith and Phillips 기사가 산만했습니다!
Silverfish 2016 년

2
이 주제에 +1 추가되었습니다. 나는 종종 일에서 EIV 모델을 고려했습니다. 그러나 "오류 비율"에 대한 지식에 대한 복잡성이나 의존성 외에도 고려해야 할보다 개념적 문제가 있습니다. 특히 감독 학습 또는 예측에서 많은 회귀 분석은 관측 된 예측 변수를 관측 된 결과 와 연관 시키려고합니다 . 반면에 EIV 모델은 평균 예측 변수와 평균 반응 사이의 근본적인 관계를 식별하려고 시도합니다 .

2
따라서 "과학적인 맥락에서" "진정한"회귀의 "희석"이라고 부르는 것은 "예측 적 유용성의 부재"또는 예측 맥락에서의 것과 유사합니다.

21

의 의미 , 잘못된 인과 관계 추론 등과 같은 다른 통계적 맥락뿐만 아니라이 맥락에서 적용되는 몇 가지 표준 오해가 있습니다 . p

다중 회귀 분석과 관련된 오해는 다음과 같습니다.

  1. 더 큰 추정 계수 및 / 또는 더 낮은 값 을 갖는 변수 가 '더 중요'하다고 생각합니다. p
  2. 모델에 더 많은 변수를 추가하면 '진실에 더 가깝게된다'고 생각합니다. 예를 들어, 단순 회귀에서의 기울기 에서 간의 실제 직접 관계되지 않을 수 와 하지만 변수 추가하면 해당 계수는 사실 관계를 더 잘 표현 될 것이고 추가하면 훨씬 좋습니다. YXXYZ1,,Z5Z6,,Z20

12
좋은 물건. 이 대답은 왜 두 가지가 왜 틀 렸으며 대신 어떻게해야하는지 설명한다면 더욱 유용 할 것입니다.
DW

14

나는 당신이 처음으로 나열한 것이 아마도 틀린 것으로 보이는 것들 중에서 가장 일반적이고 아마도 가장 널리 가르쳐 진 방법이라고 말하지만, 어떤 상황에서는 덜 분명한 것들이 있습니다. 실제로 적용되는지 여부), 더 많은 분석에 영향을 미칠 수 있으며 더 심각하게 영향을 줄 수 있습니다. 회귀의 주제가 소개 될 때 종종 언급되지 않습니다.

  • 대표 표본에 근접 할 수없는 관심 대상 집단에서 무작위 표본으로 처리 (임의로 표본 추출은 제외). [일부 연구는 편의 샘플에 더 가까운 것으로 볼 수 있음]

  • 관찰 데이터를 사용하면 처리 방법을 고려하지 않고 포함 된 변수 (많은 경우 부호 변경 가능성이 있음)의 계수 추정치를 확실히 바이어스시키는 프로세스의 중요한 동인을 제외시키는 결과를 무시합니다. 그들과 함께 (문제를 무지하거나 단순히 무엇이든 할 수 있다는 것을 모르는 경우). [일부 연구 분야는 수집 된 데이터의 종류 때문에 또는 일부 응용 분야의 사람들이이 문제에 대해 배우기 쉽기 때문에 다른 문제보다 더 많은 문제를 가지고 있습니다.]

  • 가짜 회귀 (주로 시간이 지남에 따라 수집 된 데이터). [사람들이 이런 일이 일어나고 있다는 것을 알고있을 때에도, 고정 된 것으로 생각하는 것만으로 문제를 완전히 피하기에 충분하다는 또 다른 일반적인 오해가 있습니다.]

물론 언급 할 수있는 많은 것들이 있습니다 (예 : 직렬로 상관되거나 심지어 통합 될 독립적 인 데이터로 처리하는 것이 일반적 일 수 있습니다).

시간이 지남에 따라 수집 된 데이터에 대한 관측 연구가 한 번에 모두 이루어질 수 있음을 알 수 있습니다. 그러나 회귀가 표준 도구 인 많은 연구 분야에서 이러한 종류의 연구가 매우 일반적입니다. 단일 검토 자 또는 편집자 중 적어도 하나에 대해 알지 못하고 결론에 어느 정도의 면책 조항을 요구하지 않고 그들이 출판 될 수있는 방법은 계속 걱정됩니다.

통계는 신중하게 통제 된 실험 (아마 신중하게 통제되지 않은 분석과 결합 될 때)을 다룰 때 재현 불가능한 결과의 문제로 가득 차 있습니다. 따라서 그 경계를 벗어나는 한 단계에서 재현성 상황이 얼마나 악화되어야합니까?


6
일부 요점과 밀접한 관련이있는 것은 " 데이터 만 측정 오류의 대상이된다 "는 아이디어 일 수 있습니다 . 그것이 여기에 구두 뿔이 있는지 확실하지 않지만 변수 에서 무작위 오류의 가능성과 결과를 무시하는 것이 일반적 입니다. yx
Silverfish 2016 년

2
@Silverfish 나는 이것을 합계 LY 당신과 함께 동의합니다.
Mark L. Stone

@Silverfish는 CW이므로 적절한 추가로 편집 할 수 있습니다.
Glen_b 2016 년

@Silverfish 당신이 그것을 언급했을 때 내가 그것을 직접 추가하지 않은 이유가 있습니다 ... 아마 새로운 답변의 가치가 있다고 생각합니다
Glen_b

12

나는 아마도 이러한 오해를 불러 일으키지 않을 수도 있지만 혼동 / 끊어짐의 일반적인 점과 경우에 따라 연구원이 알지 못하는 문제를 일으킬 수도 있습니다.

  • 다중 공선 성 (데이터 포인트보다 많은 변수의 경우 포함)
  • 이분산성
  • 독립 변수의 값이 노이즈의 영향을 받는지 여부
  • 스케일링 (또는 스케일링 아님)이 계수 해석에 미치는 영향
  • 여러 주제의 데이터를 처리하는 방법
  • 직렬 상관 관계를 다루는 방법 (예 : 시계열)

사물의 오해 측면에서 :

  • 선형성이 의미하는 것 (예 : 는 비선형 wrt 이지만 선형은 가중치입니다).y=ax2+bx+cx
  • '회귀'는 보통 최소 제곱 또는 선형 회귀를 의미합니다.
  • 저 / 고 가중치는 반드시 종속 변수와의 약한 / 강한 관계를 암시합니다
  • 종속 변수와 독립 변수 사이의 의존성을 반드시 쌍별 의존성으로 줄일 수 있습니다.
  • 훈련 세트에 대한 높은 적합도는 우수한 모델을 의미합니다 (즉, 과적 합 무시)

7

내 경험상 학생들은 제곱 오차 (또는 OLS 회귀)가 본질적으로 적절하고 정확하며 전반적으로 사용하기에 적합하거나 대안이 없다는 견해를 종종 채택합니다. 나는 OLS가 "더 극단적 인 / 편견 한 관찰에 더 큰 무게를 준다"는 말과 함께 광고를 자주 보았다. 이 개념은 이상치 (outlier)와 강력한 접근 방식의 처리가 도입 될 때 나중에 수정 될 수 있지만, 그 시점에서 피해가 발생합니다. 틀림없이, 제곱 오차의 광범위한 사용은 역사적으로 실제 오차 비용의 자연 법칙보다 수학적 편의와 더 관련이 있습니다.

전반적으로, 오류 기능의 선택이 다소 임의적이라는 이해에 중점을 둘 수 있습니다. 이상적으로, 알고리즘 내에서 페널티 선택은 잠재적 오류와 관련된 해당 실제 비용 함수 (즉, 의사 결정 프레임 워크 사용)에 따라 결정되어야합니다. 왜이 원칙을 먼저 확립하고 우리가 얼마나 잘 할 수 있는지 보지 않겠습니까?


2
선택은 응용 프로그램에 따라 다릅니다. OLS는 대수, y 축 맞춤에는 유용하지만 기하학적 최소 적용에는 덜 적습니다. 총 최소 제곱 (또는 직교 거리를 기준으로하는 다른 비용 함수)이 더 의미가 있습니다.
Willie Wheeler 2016 년

4

또 다른 일반적인 오해는 오류 항 (또는 계량 경제학 용어의 장애)과 잔차가 동일하다는 것입니다.

오차 항은 실제 모형 또는 데이터 생성 과정 에서 랜덤 변수이며, 종종 특정 분포를 따르는 것으로 가정되는 반면, 잔차는 적합 모형에서 관측 된 데이터의 편차입니다. 따라서 잔차는 오차의 추정치로 간주 될 수 있습니다.


사람들은 이것이 왜 중요한지 또는 어떤 경우에 대한 설명에 관심이있을 것입니다.
rolando2

4

내가 겪는 가장 일반적인 오해는 선형 회귀가 오류의 정규성을 가정한다는 것입니다. 그렇지 않습니다. 정규성은 선형 회귀의 일부 측면 (예 : 계수의 신뢰 한계와 같은 작은 샘플 특성)과 관련하여 유용합니다. 이러한 경우에도 비정규 분포에 사용할 수있는 점근 적 값이 있습니다.

두 번째로 가장 흔한 것은 예를 들어 피드백 루프에주의하지 않는 내 생성과 관련하여 혼란의 클러스터입니다. Y에서 X로 피드백 루프가 있으면 문제입니다.


4

내가 만든 오류는 OLS에서 X와 Y의 대칭을 가정하는 것입니다. 예를 들어, OLS를 사용하여 소프트웨어에서 a와 b를 사용하여 선형 관계 를 가정하면 X를 Y의 함수로 가정하면 OLS를 사용하여 계수를 제공한다고 믿습니다. 잘못되었습니다.

Y=aX+b
X=1aYba

어쩌면 이것은 OLS와 총 최소 제곱 또는 첫 번째 주요 구성 요소의 차이와 관련이 있습니다.


3

내가 종종 본 것은 실제로 특정 유스 케이스에서 선형 회귀의 적용 가능성에 대한 오해입니다.

예를 들어, 관심있는 변수가 무엇인가 (예 : 웹 사이트 방문자) 또는 비율 (예 : 전환율)이라고 가정 해 보겠습니다. 이러한 경우 포아송 (counts), 베타 (ratios) 등과 같은 링크 함수를 사용하여 변수를 더 잘 모델링 할 수 있습니다. 따라서보다 적절한 링크 기능을 가진 일반화 된 모델을 사용하는 것이 더 적합합니다. 그러나 변수가 범주 형이 아니기 때문에 사람들이 간단한 선형 회귀로 시작하는 것을 보았습니다 (링크 함수 = 항등 성). 정확성의 의미를 무시하더라도 모델링 가정은 문제가됩니다.


2

연구원들이 자주 간과하는 생각은 다음과 같습니다.

  • 변수 상호 작용 : 연구원은 종종 개별 예측 변수의 분리 된 베타를보고 상호 작용 항을 지정하지 않는 경우가 많습니다. 그러나 실제 세계에서는 사물이 상호 작용합니다. 가능한 모든 교호 작용 용어를 올바르게 지정하지 않으면 "예측 자"가 어떻게 결과를 형성하는 데 관여하는지 알 수 없습니다. 부지런히하고 모든 교호 작용을 지정하려면 예측 변수 수가 폭발적으로 증가합니다. 내 계산에서 4 개의 변수와 100 개의 주제와의 상호 작용 만 조사 할 수 있습니다. 하나 이상의 변수를 추가하면 매우 쉽게 과적 합할 수 있습니다.

0

또 다른 일반적인 오해는 추정치 (적합치)가 변형에 변하지 않는다는 것입니다.

Y = X T β

f(y^i)f(yi)^
일반적으로 , 여기서 , 적합 회귀 값 기반 추정 된 회귀 계수에 대해y^i=xiTβ^

이것이 단조 함수 대해 반드시 선형 일 필요는없는 경우, 원하는 것은 Quantile 회귀입니다.f()

위의 등식은 선형 함수에 대한 선형 회귀를 유지하지만 비선형 함수 (예 : )는이를 유지하지 않습니다. 그러나 이것은 양자 회귀 분석에서 모든 단조 함수에 적용됩니다.log()

이것은 데이터의 로그 변환을 수행하고 선형 회귀를 피팅 한 다음 적합 값을 지수화하고 사람들이 그것을 회귀로 읽는 경우 항상 나타납니다. 이것은 의미가 아니며, 이것이 중앙값입니다 (사실이 실제로 로그 정규 분포되어있는 경우).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.