Ridge, Lasso, ElasticNet과 같은 방법을 사용한 정규화는 선형 회귀에 매우 일반적입니다. 다음을 알고 싶었습니다.이 방법이 로지스틱 회귀에 적용 가능합니까? 그렇다면 로지스틱 회귀 분석에 사용해야하는 방식에 차이가 있습니까? 이러한 방법을 적용 할 수없는 경우 어떻게 로지스틱 회귀를 정규화합니까?
Ridge, Lasso, ElasticNet과 같은 방법을 사용한 정규화는 선형 회귀에 매우 일반적입니다. 다음을 알고 싶었습니다.이 방법이 로지스틱 회귀에 적용 가능합니까? 그렇다면 로지스틱 회귀 분석에 사용해야하는 방식에 차이가 있습니까? 이러한 방법을 적용 할 수없는 경우 어떻게 로지스틱 회귀를 정규화합니까?
답변:
예, 정규화는 회귀 및 분류를 포함한 모든 선형 방법에 사용할 수 있습니다. 나는 회귀와 분류 사이에 너무 많은 차이가 없다는 것을 보여주고 싶습니다 : 유일한 차이점은 손실 함수입니다.
특히, 선형 방법에는 손실 함수, 정규화, 알고리즘 의 세 가지 주요 구성 요소가 있습니다. 손실 함수와 정규화가 최적화 형식의 문제에서 목적 함수이고 알고리즘이이를 해결하는 방법 인 경우 (객관 함수는 볼록한 모양이므로이 게시물에서는 다루지 않습니다).
정규화 설정에서 L1 및 L2 정규화에 대해 언급했지만 다른 형식도 있으며이 게시물에서는 다루지 않습니다.
따라서 높은 수준에서 선형 방법은
손실 함수를 회귀 설정에서 로지스틱 손실로 바꾸면 로지스틱 회귀가 정규화됩니다.
예를 들어, 능선 회귀 분석에서 최적화 문제는
손실 함수를 로지스틱 손실로 바꾸면 문제가됩니다.
여기에 L2 정규화와 함께 로지스틱 회귀가 있습니다.
이것은 장난감 합성 이진 데이터 세트에서 어떻게 보이는지입니다. 왼쪽 그림은 선형 모델 (결정 경계)이있는 데이터입니다. 오른쪽 그림은 목적 함수 윤곽입니다 (x 및 y 축은 2 개의 매개 변수 값을 나타냅니다). 데이터 세트는 2 개의 가우시안에서 생성되었으며, 우리는 로지스틱 회귀 모델을 인터셉트없이 맞출 수 있으므로 오른쪽 하위 그림에서 시각화 할 수있는 매개 변수는 두 개뿐입니다.
파란색 선은 정규화가없는 로지스틱 회귀이고 검은 색 선은 L2 정규화가있는 로지스틱 회귀입니다. 오른쪽 그림의 파란색과 검은 색 점은 목적 함수에 대한 최적의 매개 변수입니다.
다음은 L1 정규화를 사용한 다른 예입니다.
이 실험의 목적은 로지스틱 회귀 분석에서 정규화가 어떻게 작동하는지 보여 주려고하지만 정규화 된 모형이 더 낫다는 주장은 아닙니다.
코드는 다른 답변에서 찾을 수 있습니다.
왜 로지스틱 회귀가 완벽한 분리 사례에서 작동하지 않는지에 대한 직관적 인 설명이 있습니까? 왜 정규화를 추가하면 문제가 해결됩니까?
예, 로지스틱 회귀에 적용 할 수 있습니다. R에서 glmnet을 사용하면 로지스틱 회귀 분석에 "이항식"인 적절한 패밀리를 지정하기 만하면됩니다. 데이터와 해결하려는 문제에 따라 지정할 수있는 몇 가지 (독, 다항식 등)가 있습니다.