선형 회귀와 로지스틱 회귀의 차이점은 무엇입니까?
언제 사용합니까?
선형 회귀와 로지스틱 회귀의 차이점은 무엇입니까?
언제 사용합니까?
답변:
예 : 체질량 지수가 어떻게 혈중 콜레스테롤을 예측하는지 (연속 측정) 보려면 내 대답의 맨 위에 설명 된 선형 회귀를 사용합니다. BMI가 당뇨병 환자 일 가능성을 예측하는 방법 (이진 진단)을 확인하려면 로지스틱 회귀를 사용합니다.
선형 회귀 는 종속 변수와 독립 변수 사이의 관계를 설정하는 데 사용되며, 이는 독립 변수가 변경되는 경우 결과 종속 변수를 추정하는 데 유용합니다. 예를 들면 다음과 같습니다.
선형 회귀 분석을 사용하면 Rain (R)과 Umbrella Sales (U)의 관계는-U = 2R + 5000입니다.
이 방정식에 따르면 1mm의 Rain마다 5002 개의 우산이 필요합니다. 따라서 단순 회귀를 사용하면 변수 값을 추정 할 수 있습니다.
반면에 로지스틱 회귀 는 사건의 확률을 확인하는 데 사용됩니다. 그리고이 이벤트는 이진 형식으로 캡처됩니다 (예 : 0 또는 1).
예-고객이 내 제품을 구매할지 여부를 확인하고 싶습니다. 이를 위해 (관련) 데이터에 대해 로지스틱 회귀 분석을 실행하고 종속 변수는 이진 변수 (1 = 예; 0 = 아니오)입니다.
그래픽 표현의 관점에서, 선형 회귀는 값이 그래프에 그려지면 선형 선을 출력으로 제공합니다. 로지스틱 회귀는 S 자형 선을 제공합니다.
모 히트 쿠라나에서 참조.
차이점은 DocBuckets와 Pardis에 의해 해결되었지만 언급되지 않은 성능을 비교하는 한 가지 방법을 추가하고 싶습니다.
선형 회귀는 일반적으로 모형의 최소 제곱 오차를 데이터에 최소화함으로써 해결되므로 큰 오차는 2 차적으로 벌점 화됩니다. 로지스틱 회귀는 그 반대입니다. 로지스틱 손실 기능을 사용하면 큰 오류가 무조건 상수로 벌칙이 부과됩니다.
이것이 왜 문제인지 알기 위해 범주 형 {0,1} 결과에 대한 선형 회귀를 고려하십시오. 진실이 1 일 때 모형이 결과가 38이라고 예측하면 아무것도 잃지 않습니다. 선형 회귀는 38을 줄이려고 시도하지만 물류는 그다지 많지 않습니다.