선형 회귀와 로지스틱 회귀의 차이점은 무엇입니까?


답변:


270
  • 확률로 선형 회귀 출력

    선형 회귀 출력을 확률로 사용하고 싶지만 출력이 음수이고 1보다 클 수 있지만 확률은 불가능하기 때문에 실수입니다. 회귀는 실제로 0보다 작거나 1보다 큰 확률을 생성 할 수 있으므로 로지스틱 회귀가 도입되었습니다.

    출처 : http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    여기에 이미지 설명을 입력하십시오

  • 결과

    선형 회귀 분석에서 결과 (종속 변수)는 연속적입니다. 무한한 수의 값 중 하나를 가질 수 있습니다.

    로지스틱 회귀 분석에서 결과 (종속 변수)의 값은 제한되어 있습니다.

  • 종속 변수

    로지스틱 회귀는 반응 변수가 범주 형일 때 사용됩니다. 예를 들어, 예 / 아니오, 참 / 거짓, 빨강 / 녹색 / 파랑, 1/2/2/3/3/4 등

    선형 회귀는 반응 변수가 연속 일 때 사용됩니다. 예를 들어, 체중, 신장, 시간 등

  • 방정식

    선형 회귀는 Y = mX + C 형식의 방정식을 제공하며, 차수가 1 인 방정식을 의미합니다.

    그러나 로지스틱 회귀는 Y = e X + e -X 형식의 방정식을 제공합니다.

  • 계수 해석

    선형 회귀 분석에서 독립 변수의 계수 해석은 매우 간단합니다 (즉,이 변수의 단위 증가에 따라 다른 모든 변수를 일정하게 유지하면 종속 변수가 xxx 씩 증가 / 감소 할 것으로 예상 됨).

    그러나 로지스틱 회귀 분석에서 사용하는 패밀리 (이항, 포아송 등) 및 링크 (로그, 로짓, 역 로그 등)에 따라 해석이 다릅니다.

  • 오차 최소화 기술

    선형 회귀 분석에서는 일반적인 최소 제곱 법을 사용하여 오류를 최소화하고 가장 적합한 결과에 도달하는 반면, 로지스틱 회귀 분석에서는 솔루션에 도달 할 수있는 최대 가능성 방법을 사용 합니다.

    선형 회귀는 일반적으로 모형의 최소 제곱 오차를 데이터에 최소화함으로써 해결되므로 큰 오차는 2 차적으로 벌점 화됩니다.

    로지스틱 회귀는 그 반대입니다. 로지스틱 손실 기능을 사용하면 큰 오류가 무조건 상수로 벌칙이 부과됩니다.

    이것이 문제가되는 이유를 보려면 범주 형 {0, 1} 결과에 대한 선형 회귀를 고려하십시오. 모형이 결과가 38이라고 예측하면 진실이 1 일 때 아무것도 잃지 않습니다. 선형 회귀는 38을 줄이기 위해 노력할 것이며, 물류는 그다지 많지 않을 것입니다 2 .


Y = e ^ X / 1 + e ^ -X와 Y = e ^ X + e ^ -X 사이에 차이가 있습니까?
MMS

3
e ^ X / 1? 1로 나누는 것은 동일합니다. 차이가 없습니다. 나는 당신이 다른 것을 물어볼 의향이 있다고 확신합니다.
spacewanderer

나는 이것이 오래된 스레드라는 것을 알고 있지만 "응답 변수가 범주 형 인 경우 로지스틱 회귀가 사용됩니다. 예 / 아니오, 참 / 거짓, 빨강 / 녹색 / 파랑, 1/2/2/3/3/4, 등. "; 이것과 분류의 차이점은 무엇입니까?
kingJulian

@kingJulian Logistic Regression은 실제로 분류에 사용됩니다. 확인 아웃, 당신은 내가 가지고 유용하게 찾을 수 있습니다
QuantumHoneybees

@kingJulian : 로지스틱 회귀는 분류 기법이며 분류는 결과를 거의 예측하지 않는 여러 알고리즘을 나타냅니다.
user3676305

204

선형 회귀 분석에서 결과 (종속 변수)는 연속적입니다. 무한한 수의 값 중 하나를 가질 수 있습니다. 로지스틱 회귀 분석에서 결과 (종속 변수)의 값은 제한되어 있습니다.

예를 들어, X에 면적이 평방 피트이고 Y가 해당 주택의 판매가를 포함하는 경우 선형 회귀를 사용하여 판매가를 주택 크기의 함수로 예측할 수 있습니다. 가능한 판매 가격이 실제로하지 않을 수 있지만 하나를 , 선형 회귀 모델이 선택 될 것이다 이렇게 많은 수있는 값이 있습니다.

대신, 규모에 따라 집이 2 억 달러 이상을 판매 할 것인지 예측하려면 로지스틱 회귀를 사용합니다. 가능한 생산량은 예, 주택은 $ 200K 이상을 판매 할 것입니다. 또는 아니오, 주택은 그렇지 않습니다.


3
앤드류스 로지스틱 회귀 예제 암에서, 수평선이 y = .5를 그릴 수 있습니다 (명확하게 y = .5를 통과합니다).이 점 위에이 점이 있으면 10 = y5. . 그렇다면 왜 로지스틱 회귀가 필요합니까? 로지스틱 회귀를 사용하는 가장 좋은 사례 설명을 이해하려고 노력하고 있습니까?
vinita

@vinita : 여기 또는 여기 에 분류 문제에 대해 선형 회귀를 사용하지 않고 타작을 사용하지 않는 간단한 예가 있습니다.
Ankush Shah

3
로지스틱 회귀는 선형 회귀보다 범주 형 데이터에서 더 나은 분류기입니다. 최소 제곱 대신 교차 엔트로피 오류 함수를 사용합니다. 따라서 특이 치에 민감하지 않으며 최소 제곱과 같이 "너무 정확한"데이터 포인트를 처벌하지 않습니다.
Marcel_marcel1991

15

이전 답변을 추가하십시오.

선형 회귀

주어진 요소 X에 대한 출력 값을 예측 / 추정하는 문제 (예 : f (x))를 해결하기위한 것입니다. 예측 결과는 값이 양수 또는 음수 일 수있는 연속 함수입니다. 이 경우 일반적으로 많은 예제 가있는 입력 데이터 세트와 각각에 대한 출력 값이 있습니다. 목표는 모델을이 데이터 세트 에 맞추는 것이므로 다른 / 보지 않은 새로운 요소에 대한 출력을 예측할 수 있습니다. 다음은 선을 점 집합에 맞추는 전형적인 예이지만 일반적으로 선형 회귀를 사용하여 더 복잡한 다항식도를 사용하여 더 복잡한 모형에 맞출 수 있습니다.

여기에 이미지 설명을 입력하십시오 문제 해결

Linea 회귀 분석은 다음 두 가지 방법으로 해결할 수 있습니다.

  1. 정규 방정식 (문제를 해결하는 직접적인 방법)
  2. 그라데이션 하강 (반복적 접근)

로지스틱 회귀

요소가 주어진 경우 분류 범주 문제 를 해결 하여 N 범주에서 동일하게 분류해야합니다. 일반적인 예로는 예를 들어 메일을 스팸으로 분류하거나 분류하지 않는 메일이 제공되거나 해당 카테고리에 속하는 차량 (자동차, 트럭, 밴 등)이 제공됩니다. 기본적으로 출력은 유한 한 descrete 값 세트입니다.

문제 해결

로지스틱 회귀 문제는 그라디언트 디센트를 사용해야 만 해결할 수 있습니다. 일반적으로 공식은 선형 회귀와 매우 유사하지만 유일한 차이점은 다른 가설 함수의 사용법입니다. 선형 회귀 분석에서 가설의 형식은 다음과 같습니다.

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

여기서 theta는 우리가 맞추려고하는 모델이고 [1, x_1, x_2, ..]는 입력 벡터입니다. 로지스틱 회귀 분석에서 가설 함수는 다릅니다.

g(x) = 1 / (1 + e^-x)

여기에 이미지 설명을 입력하십시오

이 함수는 좋은 속성을 가지고 있습니다. 기본적으로 모든 값을 [0,1] 범위에 매핑합니다.이 값은 분류 중에 퍼포먼스를 처리하는 데 적합합니다. 예를 들어 이진 분류의 경우 g (X)는 양의 클래스에 속할 확률로 해석 될 수 있습니다. 이 경우 일반적으로 결정 경계 로 분리 된 다른 클래스가 있으며 기본적으로 다른 클래스 간의 분리를 결정 하는 곡선 입니다. 다음은 두 클래스로 구분 된 데이터 집합의 예입니다.

여기에 이미지 설명을 입력하십시오


7

그것들은 해법에 대한 해답과 상당히 유사하지만, 다른 사람들이 말했듯이, 하나의 (물류 회귀)는 범주 "적합"(Y / N 또는 1/0)을 예측하기위한 것이고 다른 하나는 선형 회귀를 예측하기위한 것입니다. 가치.

암 Y / N (또는 확률)이 있는지 예측하려면 물류를 사용하십시오. 선형 회귀를 사용하기 위해 몇 년을 살 것인지 알고 싶다면!


6

기본적인 차이점 :

선형 회귀는 기본적으로 회귀 모델로, 함수의 신중하지 않고 연속적인 출력을 제공합니다. 따라서이 접근법은 가치를 제공합니다. 예를 들어 : 주어진 x f (x)는 무엇입니까?

예를 들어 다양한 요인에 대한 훈련 세트와 훈련 후 부동산 가격이 주어지면 부동산 가격이 무엇인지 결정하는 데 필요한 요인을 제공 할 수 있습니다.

로지스틱 회귀는 기본적으로 이진 분류 알고리즘으로, 여기서 함수에 대해 신중한 값 출력이 제공됩니다. 예를 들어 : f (x)> threshold 인 경우 주어진 x에 대해 1로 분류하고 그렇지 않으면 0으로 분류합니다.

예를 들어 훈련 데이터로 뇌종양 크기가 주어지면 크기를 입력으로 사용하여 그것의 베닌인지 악성 종양인지를 결정할 수 있습니다. 따라서 출력은 0 또는 1로 신중합니다.

*이 함수는 기본적으로 가설 함수입니다.


5

간단히 말해서, 선형 회귀는 가능한 연속적이고 무한한 값을 능가하는 회귀 알고리즘입니다. 로지스틱 회귀는 이진 분류기 알고리즘으로 간주되며 레이블에 속하는 입력의 '확률'을 출력합니다 (0 또는 1).


고맙습니다. 확률에 대한 당신의 메모를 읽었습니다. 이진 분류기로 물류를 작성하려고했습니다.
HashRocketSyntax 1

4

회귀는 연속 변수를 의미하고 선형은 y와 x 사이에 선형 관계가 있음을 의미합니다. Ex = 수년간의 경험없이 급여를 예측하려고합니다. 따라서 여기서 급여는 독립 변수 (y)이고 경험의 년은 종속 변수 (x)입니다. y = b0 + b1 * x1 선형 회귀 관측치에 가장 적합한 피팅 라인을 제공하는 상수 b0 및 b1의 최적 값을 찾으려고합니다. x = 0에서 매우 큰 값까지 연속적인 값을 제공하는 선 방정식입니다. 이 선을 선형 회귀 모델이라고합니다.

로지스틱 회귀는 분류 기술의 한 유형입니다. 용어 회귀에 의해 잘못 오도되었습니다. 여기서 우리는 y = 0인지 1인지 예측합니다.

여기서 우리는 먼저 아래 공식에서 x가 주어진 p (y = 1) (wprobability of y = 1)을 찾아야합니다.

조사

확률 p는 아래 공식에 의해 y와 관련됩니다.

에스

예 = 우리는 1 일 때 암을 가질 확률이 50 % 이상인 종양과 0으로 암을 가질 가능성이 50 % 미만인 종양을 분류 할 수 있습니다. 5

여기서 빨간색 점은 0으로 예측되고 녹색 점은 1로 예측됩니다.


1

한마디로 : 선형 회귀는 연속 출력을 제공합니다. 즉, 값 범위 사이의 값. 로지스틱 회귀는 불연속 출력을 제공합니다. 예 / 아니오, 0/1 종류의 출력.


1

위의 의견에 더 동의 할 수 없습니다. 이보다 더 많은 차이점이 있습니다.

선형 회귀 분석에서 잔차는 정규 분포로 가정합니다. 로지스틱 회귀 분석에서 잔차는 독립적이지만 정규 분포는 아니어야합니다.

선형 회귀 분석에서는 설명 변수의 값이 일정하게 변경되면 반응 변수가 일정하게 변경된다고 가정합니다. 반응 변수의 값이 확률을 나타내는 경우 (로지스틱 회귀 분석에서)이 가정은 유지되지 않습니다.

GLM (Generalized linear models)은 종속 변수와 독립 변수 간의 선형 관계를 가정하지 않습니다. 그러나 로짓 모델에서 링크 함수와 독립 변수 간의 선형 관계를 가정합니다.


1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

0

간단히 말해서, 선형 회귀 모델에서 y = 1 및 y = 0의 예측을 위해 임계 값 (예 : = 0.5)에서 멀리 떨어진 더 많은 테스트 사례가 도착합니다. 이 경우 가설이 바뀌고 나빠질 수 있으므로 분류 문제에 선형 회귀 모델이 사용되지 않습니다.

또 다른 문제는 분류가 y = 0이고 y = 1 인 경우 h (x)는> 1 또는 <0 일 수 있으므로 로지스틱 회귀는 0 <= h (x) <= 1입니다.


0

로지스틱 회귀 분석은 예 / 아니오, 낮음 / 중간 / 높음 등의 범주 출력을 예측하는 데 사용됩니다. 기본적으로 2 가지 유형의 로지스틱 회귀 분석 이진 로지스틱 회귀 (예 / 아니오, 승인 / 비 승인) 또는 다중 클래스 로지스틱 회귀 (낮음 / 중간) / 높음, 0-9 등의 숫자)

반면에 선형 회귀는 종속 변수 (y)가 연속적입니다. y = mx + c는 간단한 선형 회귀 방정식입니다 (m = 기울기 및 c는 y 절편입니다). 다중 선형 회귀 분석에는 둘 이상의 독립 변수 (x1, x2, x3 ... 등)가 있습니다


0

선형 회귀 분석에서는 결과가 연속적이지만 로지스틱 회귀 분석에서는 결과가 가능한 수의 값 (개별) 만 제한합니다.

예 : 시나리오에서 주어진 x 값은 제곱 피트 단위의 플롯 크기이며 y를 예측합니다. 즉, 플롯의 비율은 선형 회귀를 따릅니다.

대신 크기를 기준으로 플롯이 300000 Rs 이상에 판매 될지 여부를 예측하려면 로지스틱 회귀를 사용합니다. 가능한 출력은 예입니다. 플롯은 300000 Rs를 초과하여 판매되거나 아니오입니다.


0

선형 회귀 분석의 경우 결과는 연속적인 반면 로지스틱 회귀 분석 결과의 불연속 (연속이 아님)

선형 회귀를 수행하려면 종속 변수와 독립 변수 사이에 선형 관계가 필요합니다. 그러나 로지스틱 회귀를 수행하기 위해 종속 변수와 독립 변수 사이에 선형 관계가 필요하지 않습니다.

선형 회귀 분석은 데이터에 직선을 맞추는 것과 관련이 있으며 로지스틱 회귀 분석은 데이터에 곡선을 맞추는 것에 관한 것입니다.

선형 회귀는 기계 학습에 대한 회귀 알고리즘이며 로지스틱 회귀는 기계 학습에 대한 분류 알고리즘입니다.

선형 회귀 분석은 종속 변수의 가우스 분포 (또는 정규 분포)를 가정합니다. 로지스틱 회귀 분석은 종속 변수의 이항 분포를 가정합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.