선형 회귀와 로지스틱 회귀의 차이점은 무엇입니까?


122

선형 회귀와 로지스틱 회귀의 차이점은 무엇입니까?

언제 사용합니까?


28
선형 회귀 모델에서 종속 변수 y 는 연속적인 것으로 간주되는 반면, 로지스틱 회귀에서는 범주 형, 즉 이산입니다. 응용 프로그램에서 전자는 회귀 설정에 사용되고 후자는 이진 분류 또는 다중 클래스 분류 (다항식 로지스틱 회귀라고 함)에 사용됩니다.
Pardis

다른 맥락에서 작성되었지만 여기에서 내 대답을 읽는 데 도움이 될 수 있습니다. 로짓과 프로 빗 모델의 차이점- 로지스틱 회귀 분석에서 발생하는 상황에 대한 많은 정보가 포함되어있어이를 이해하는 데 도움이 될 수 있습니다.
gung

2
이전의 모든 대답은 옳지 만 결과가 이분법 인 경우에도 선형 회귀 모델을 선호하는 이유가 있습니다. 여기에 이러한 이유에 대해 글을 썼습니다 : statisticshorizons.com/linear-vs-logistic
Paul von Hippel

답변:


111

Y=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

Y

Y=1

P(Y=1)=11+e(b0+(biXi))

XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOddsOdds(Xi+1)Odds(Xi)Y=1ebiXi

예 : 체질량 지수가 어떻게 혈중 콜레스테롤을 예측하는지 (연속 측정) 보려면 내 대답의 맨 위에 설명 된 선형 회귀를 사용합니다. BMI가 당뇨병 환자 일 가능성을 예측하는 방법 (이진 진단)을 확인하려면 로지스틱 회귀를 사용합니다.


1
ϵi

빌은 그가 ei 대신에 (즉, 라틴어 약어)를 쓰려고했던 것 같습니다
Michael Chernick

1
그러나 지수의 요약에서 εi는 없어야합니다. 모델의 노이즈 용어가 실수로 전달 된 것 같습니다. 유일한 합산은 p 공변량에 대한 p 계수를 나타내는 비스에 대한 것이어야합니다.
Michael Chernick

9
P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}

3
@samthebrand 로지스틱 회귀는 이진 자체가 아닙니다. 0에서 1 사이의 확률을 통해 이진 반응으로 데이터를 모델링하는 데 사용할 수 있습니다 . 혼란 스럽지 않게 내 블로그 게시물 을 부끄럽게 연결 하십시오.
Ben

34

선형 회귀 는 종속 변수와 독립 변수 사이의 관계를 설정하는 데 사용되며, 이는 독립 변수가 변경되는 경우 결과 종속 변수를 추정하는 데 유용합니다. 예를 들면 다음과 같습니다.

선형 회귀 분석을 사용하면 Rain (R)과 Umbrella Sales (U)의 관계는-U = 2R + 5000입니다.

이 방정식에 따르면 1mm의 Rain마다 5002 개의 우산이 필요합니다. 따라서 단순 회귀를 사용하면 변수 값을 추정 할 수 있습니다.

반면에 로지스틱 회귀 는 사건의 확률을 확인하는 데 사용됩니다. 그리고이 이벤트는 이진 형식으로 캡처됩니다 (예 : 0 또는 1).

예-고객이 내 제품을 구매할지 여부를 확인하고 싶습니다. 이를 위해 (관련) 데이터에 대해 로지스틱 회귀 분석을 실행하고 종속 변수는 이진 변수 (1 = 예; 0 ​​= 아니오)입니다.

그래픽 표현의 관점에서, 선형 회귀는 값이 그래프에 그려지면 선형 선을 출력으로 제공합니다. 로지스틱 회귀는 S 자형 선을 제공합니다.

모 히트 쿠라나에서 참조.


8
Re : "선형 회귀 분석은 종속 변수와 독립 변수 사이의 관계를 설정하는 데 사용됩니다."-로지스틱 회귀 분석에서도 마찬가지입니다. 종속 변수가 이진일뿐입니다.
매크로

3
로지스틱 회귀는 이진 이벤트 ( 클래스) 만 예측하는 것이 아닙니다 . 그것은 클래스 (다항 로지스틱 회귀) 로 일반화 될 수있다2k
tgy

27

차이점은 DocBuckets와 Pardis에 의해 해결되었지만 언급되지 않은 성능을 비교하는 한 가지 방법을 추가하고 싶습니다.

선형 회귀는 일반적으로 모형의 최소 제곱 오차를 데이터에 최소화함으로써 해결되므로 큰 오차는 2 차적으로 벌점 화됩니다. 로지스틱 회귀는 그 반대입니다. 로지스틱 손실 기능을 사용하면 큰 오류가 무조건 상수로 벌칙이 부과됩니다.

이것이 왜 문제인지 알기 위해 범주 형 {0,1} 결과에 대한 선형 회귀를 고려하십시오. 진실이 1 일 때 모형이 결과가 38이라고 예측하면 아무것도 잃지 않습니다. 선형 회귀는 38을 줄이려고 시도하지만 물류는 그다지 많지 않습니다.


WRE 다음, 상황 / 경우에 하는 우리는 가난한 맞는 것 즉, 어떤 경우 물류에서 범?
MSIS

1
정반대 : 적합치에서 더 큰 편차가 실제로는 더 나쁜 결과를 초래할 때마다. 예를 들어, 로지스틱 회귀는 다트 판을 치는 데 도움이되지만 불즈 아이를 멋지게 만들 수는 없습니다. 또는 마찬가지로 보드를 거의 놓치면 이웃을 고수하는 것과 같다고 생각합니다.
J. Abrahamson

좋은 대답입니다. 모델 성능에 얼마나 많은 영향을 미치는지 조사 된 적이 있습니까? 로지스틱 회귀 분석 대신 선형 회귀 분석을 사용하여 response = {0,1}을 예측 한 경우입니다.
Tagar
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.