답변:
확률로 선형 회귀 출력
선형 회귀 출력을 확률로 사용하고 싶지만 출력이 음수이고 1보다 클 수 있지만 확률은 불가능하기 때문에 실수입니다. 회귀는 실제로 0보다 작거나 1보다 큰 확률을 생성 할 수 있으므로 로지스틱 회귀가 도입되었습니다.
출처 : http://gerardnico.com/wiki/data_mining/simple_logistic_regression
결과
선형 회귀 분석에서 결과 (종속 변수)는 연속적입니다. 무한한 수의 값 중 하나를 가질 수 있습니다.
로지스틱 회귀 분석에서 결과 (종속 변수)의 값은 제한되어 있습니다.
종속 변수
로지스틱 회귀는 반응 변수가 범주 형일 때 사용됩니다. 예를 들어, 예 / 아니오, 참 / 거짓, 빨강 / 녹색 / 파랑, 1/2/2/3/3/4 등
선형 회귀는 반응 변수가 연속 일 때 사용됩니다. 예를 들어, 체중, 신장, 시간 등
방정식
선형 회귀는 Y = mX + C 형식의 방정식을 제공하며, 차수가 1 인 방정식을 의미합니다.
그러나 로지스틱 회귀는 Y = e X + e -X 형식의 방정식을 제공합니다.
계수 해석
선형 회귀 분석에서 독립 변수의 계수 해석은 매우 간단합니다 (즉,이 변수의 단위 증가에 따라 다른 모든 변수를 일정하게 유지하면 종속 변수가 xxx 씩 증가 / 감소 할 것으로 예상 됨).
그러나 로지스틱 회귀 분석에서 사용하는 패밀리 (이항, 포아송 등) 및 링크 (로그, 로짓, 역 로그 등)에 따라 해석이 다릅니다.
오차 최소화 기술
선형 회귀 분석에서는 일반적인 최소 제곱 법을 사용하여 오류를 최소화하고 가장 적합한 결과에 도달하는 반면, 로지스틱 회귀 분석에서는 솔루션에 도달 할 수있는 최대 가능성 방법을 사용 합니다.
선형 회귀는 일반적으로 모형의 최소 제곱 오차를 데이터에 최소화함으로써 해결되므로 큰 오차는 2 차적으로 벌점 화됩니다.
로지스틱 회귀는 그 반대입니다. 로지스틱 손실 기능을 사용하면 큰 오류가 무조건 상수로 벌칙이 부과됩니다.
이것이 문제가되는 이유를 보려면 범주 형 {0, 1} 결과에 대한 선형 회귀를 고려하십시오. 모형이 결과가 38이라고 예측하면 진실이 1 일 때 아무것도 잃지 않습니다. 선형 회귀는 38을 줄이기 위해 노력할 것이며, 물류는 그다지 많지 않을 것입니다 2 .
선형 회귀 분석에서 결과 (종속 변수)는 연속적입니다. 무한한 수의 값 중 하나를 가질 수 있습니다. 로지스틱 회귀 분석에서 결과 (종속 변수)의 값은 제한되어 있습니다.
예를 들어, X에 면적이 평방 피트이고 Y가 해당 주택의 판매가를 포함하는 경우 선형 회귀를 사용하여 판매가를 주택 크기의 함수로 예측할 수 있습니다. 가능한 판매 가격이 실제로하지 않을 수 있지만 하나를 , 선형 회귀 모델이 선택 될 것이다 이렇게 많은 수있는 값이 있습니다.
대신, 규모에 따라 집이 2 억 달러 이상을 판매 할 것인지 예측하려면 로지스틱 회귀를 사용합니다. 가능한 생산량은 예, 주택은 $ 200K 이상을 판매 할 것입니다. 또는 아니오, 주택은 그렇지 않습니다.
이전 답변을 추가하십시오.
선형 회귀
주어진 요소 X에 대한 출력 값을 예측 / 추정하는 문제 (예 : f (x))를 해결하기위한 것입니다. 예측 결과는 값이 양수 또는 음수 일 수있는 연속 함수입니다. 이 경우 일반적으로 많은 예제 가있는 입력 데이터 세트와 각각에 대한 출력 값이 있습니다. 목표는 모델을이 데이터 세트 에 맞추는 것이므로 다른 / 보지 않은 새로운 요소에 대한 출력을 예측할 수 있습니다. 다음은 선을 점 집합에 맞추는 전형적인 예이지만 일반적으로 선형 회귀를 사용하여 더 복잡한 다항식도를 사용하여 더 복잡한 모형에 맞출 수 있습니다.
Linea 회귀 분석은 다음 두 가지 방법으로 해결할 수 있습니다.
로지스틱 회귀
요소가 주어진 경우 분류 범주 문제 를 해결 하여 N 범주에서 동일하게 분류해야합니다. 일반적인 예로는 예를 들어 메일을 스팸으로 분류하거나 분류하지 않는 메일이 제공되거나 해당 카테고리에 속하는 차량 (자동차, 트럭, 밴 등)이 제공됩니다. 기본적으로 출력은 유한 한 descrete 값 세트입니다.
문제 해결
로지스틱 회귀 문제는 그라디언트 디센트를 사용해야 만 해결할 수 있습니다. 일반적으로 공식은 선형 회귀와 매우 유사하지만 유일한 차이점은 다른 가설 함수의 사용법입니다. 선형 회귀 분석에서 가설의 형식은 다음과 같습니다.
h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..
여기서 theta는 우리가 맞추려고하는 모델이고 [1, x_1, x_2, ..]는 입력 벡터입니다. 로지스틱 회귀 분석에서 가설 함수는 다릅니다.
g(x) = 1 / (1 + e^-x)
이 함수는 좋은 속성을 가지고 있습니다. 기본적으로 모든 값을 [0,1] 범위에 매핑합니다.이 값은 분류 중에 퍼포먼스를 처리하는 데 적합합니다. 예를 들어 이진 분류의 경우 g (X)는 양의 클래스에 속할 확률로 해석 될 수 있습니다. 이 경우 일반적으로 결정 경계 로 분리 된 다른 클래스가 있으며 기본적으로 다른 클래스 간의 분리를 결정 하는 곡선 입니다. 다음은 두 클래스로 구분 된 데이터 집합의 예입니다.
기본적인 차이점 :
선형 회귀는 기본적으로 회귀 모델로, 함수의 신중하지 않고 연속적인 출력을 제공합니다. 따라서이 접근법은 가치를 제공합니다. 예를 들어 : 주어진 x f (x)는 무엇입니까?
예를 들어 다양한 요인에 대한 훈련 세트와 훈련 후 부동산 가격이 주어지면 부동산 가격이 무엇인지 결정하는 데 필요한 요인을 제공 할 수 있습니다.
로지스틱 회귀는 기본적으로 이진 분류 알고리즘으로, 여기서 함수에 대해 신중한 값 출력이 제공됩니다. 예를 들어 : f (x)> threshold 인 경우 주어진 x에 대해 1로 분류하고 그렇지 않으면 0으로 분류합니다.
예를 들어 훈련 데이터로 뇌종양 크기가 주어지면 크기를 입력으로 사용하여 그것의 베닌인지 악성 종양인지를 결정할 수 있습니다. 따라서 출력은 0 또는 1로 신중합니다.
*이 함수는 기본적으로 가설 함수입니다.
간단히 말해서, 선형 회귀는 가능한 연속적이고 무한한 값을 능가하는 회귀 알고리즘입니다. 로지스틱 회귀는 이진 분류기 알고리즘으로 간주되며 레이블에 속하는 입력의 '확률'을 출력합니다 (0 또는 1).
회귀는 연속 변수를 의미하고 선형은 y와 x 사이에 선형 관계가 있음을 의미합니다. Ex = 수년간의 경험없이 급여를 예측하려고합니다. 따라서 여기서 급여는 독립 변수 (y)이고 경험의 년은 종속 변수 (x)입니다. y = b0 + b1 * x1 관측치에 가장 적합한 피팅 라인을 제공하는 상수 b0 및 b1의 최적 값을 찾으려고합니다. x = 0에서 매우 큰 값까지 연속적인 값을 제공하는 선 방정식입니다. 이 선을 선형 회귀 모델이라고합니다.
로지스틱 회귀는 분류 기술의 한 유형입니다. 용어 회귀에 의해 잘못 오도되었습니다. 여기서 우리는 y = 0인지 1인지 예측합니다.
여기서 우리는 먼저 아래 공식에서 x가 주어진 p (y = 1) (wprobability of y = 1)을 찾아야합니다.
확률 p는 아래 공식에 의해 y와 관련됩니다.
예 = 우리는 1 일 때 암을 가질 확률이 50 % 이상인 종양과 0으로 암을 가질 가능성이 50 % 미만인 종양을 분류 할 수 있습니다.
여기서 빨간색 점은 0으로 예측되고 녹색 점은 1로 예측됩니다.
위의 의견에 더 동의 할 수 없습니다. 이보다 더 많은 차이점이 있습니다.
선형 회귀 분석에서 잔차는 정규 분포로 가정합니다. 로지스틱 회귀 분석에서 잔차는 독립적이지만 정규 분포는 아니어야합니다.
선형 회귀 분석에서는 설명 변수의 값이 일정하게 변경되면 반응 변수가 일정하게 변경된다고 가정합니다. 반응 변수의 값이 확률을 나타내는 경우 (로지스틱 회귀 분석에서)이 가정은 유지되지 않습니다.
GLM (Generalized linear models)은 종속 변수와 독립 변수 간의 선형 관계를 가정하지 않습니다. 그러나 로짓 모델에서 링크 함수와 독립 변수 간의 선형 관계를 가정합니다.
| Basis | Linear | Logistic |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic | The data is modelled using a straight line. | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required | Not required |
| The independent variable | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist). |
간단히 말해서, 선형 회귀 모델에서 y = 1 및 y = 0의 예측을 위해 임계 값 (예 : = 0.5)에서 멀리 떨어진 더 많은 테스트 사례가 도착합니다. 이 경우 가설이 바뀌고 나빠질 수 있으므로 분류 문제에 선형 회귀 모델이 사용되지 않습니다.
또 다른 문제는 분류가 y = 0이고 y = 1 인 경우 h (x)는> 1 또는 <0 일 수 있으므로 로지스틱 회귀는 0 <= h (x) <= 1입니다.
로지스틱 회귀 분석은 예 / 아니오, 낮음 / 중간 / 높음 등의 범주 출력을 예측하는 데 사용됩니다. 기본적으로 2 가지 유형의 로지스틱 회귀 분석 이진 로지스틱 회귀 (예 / 아니오, 승인 / 비 승인) 또는 다중 클래스 로지스틱 회귀 (낮음 / 중간) / 높음, 0-9 등의 숫자)
반면에 선형 회귀는 종속 변수 (y)가 연속적입니다. y = mx + c는 간단한 선형 회귀 방정식입니다 (m = 기울기 및 c는 y 절편입니다). 다중 선형 회귀 분석에는 둘 이상의 독립 변수 (x1, x2, x3 ... 등)가 있습니다
선형 회귀 분석의 경우 결과는 연속적인 반면 로지스틱 회귀 분석 결과의 불연속 (연속이 아님)
선형 회귀를 수행하려면 종속 변수와 독립 변수 사이에 선형 관계가 필요합니다. 그러나 로지스틱 회귀를 수행하기 위해 종속 변수와 독립 변수 사이에 선형 관계가 필요하지 않습니다.
선형 회귀 분석은 데이터에 직선을 맞추는 것과 관련이 있으며 로지스틱 회귀 분석은 데이터에 곡선을 맞추는 것에 관한 것입니다.
선형 회귀는 기계 학습에 대한 회귀 알고리즘이며 로지스틱 회귀는 기계 학습에 대한 분류 알고리즘입니다.
선형 회귀 분석은 종속 변수의 가우스 분포 (또는 정규 분포)를 가정합니다. 로지스틱 회귀 분석은 종속 변수의 이항 분포를 가정합니다.