로지스틱 회귀 분석은 언제 적합합니까?


12

나는 현재 분류를 수행하는 방법을 스스로 가르치고 있으며, 특히 벡터 머신, 신경망 및 로지스틱 회귀를 지원하는 세 가지 방법을 찾고 있습니다. 내가 이해하려고하는 것은 로지스틱 회귀가 다른 두 가지보다 더 나은 성능을 보이는 이유입니다.

로지스틱 회귀에 대한 이해에서 로지스틱 함수를 전체 데이터에 맞추는 것이 아이디어입니다. 따라서 내 데이터가 이진 인 경우 레이블이 0 인 내 데이터는 모두 값 0에 매핑되어야하고 값이 1 인 모든 데이터는 값 1에 매핑되어야합니다 (또는 데이터에 가까워 야 함). 이제 로지스틱 함수가 연속적이고 매끄 럽기 때문에이 회귀를 수행하려면 모든 데이터가 곡선에 맞아야합니다. 의사 결정 경계 근처의 데이터 포인트에는 더 이상 중요하지 않으며, 모든 데이터 포인트는 다른 양만큼 손실에 기여합니다.

그러나 서포트 벡터 머신과 신경망에서는 결정 경계 근처의 데이터 포인트 만 중요합니다. 데이터 포인트가 의사 결정 경계의 같은쪽에있는 한 동일한 손실에 기여합니다.

따라서 왜 결정에 관련된 어려운 데이터에만 초점을 맞추기보다는 많은 중요하지 않은 (쉽게 분류 할 수있는) 데이터에 곡선을 맞추려고 할 때 "자원 낭비"라는 점에서 로지스틱 회귀가 지원 벡터 시스템이나 신경망보다 성능이 우수한 이유는 무엇입니까? 경계?


5
LR은 확률 추정치를 제공하고 SVM은 이진 추정치를 제공합니다. 클래스간에 분리 초평면이 없을 때 LR을 유용하게 만듭니다. 또한 알고리즘의 복잡성과 매개 변수 수 및 감도와 같은 기타 특성을 고려해야합니다.
Bar

답변:


28

"소비"된 것으로 간주되는 리소스는 사실 로지스틱 회귀에 의해 제공되는 정보 획득입니다. 당신은 잘못된 전제로 시작했습니다. 로지스틱 회귀는 분류자가 아닙니다. 확률 / 위험 추정기입니다. SVM과 달리 "클로즈 콜"을 허용하고 기대합니다. 예측 신호를 속여서 관측을 분류 할 때마다 암시적인 유틸리티 기능을 통합하려고 시도하지 않기 때문에 최적의 의사 결정으로 이어질 것입니다. 최대 우도 추정을 사용한 로지스틱 회귀의 목표는 Prob 의 최적 추정치를 제공하는 것 입니다. 결과는 리프트 곡선, 신용 리스크 점수 등 여러 가지 방식으로 사용됩니다 . 확률 론적 추론을지지하는 강력한 논거에 대해서는 Nate Silver의 책 Signal and the Noise 를 참조하십시오 .(Y=1|X)

로지스틱 회귀 분석 의 종속 변수 는 0/1, A / B, yes / no 등 원하는 방식으로 코딩 할 수 있습니다.Y

로지스틱 회귀 분석의 기본 가정은 가 실제로 이진이라는 것입니다. 예를 들어 기본 서수 또는 연속 반응 변수에서 도출되지 않았습니다. 분류 방법과 마찬가지로, 그것은 전혀 또는 전혀없는 현상을위한 것입니다.Y

일부 분석가는 로지스틱 회귀 분석이 로그 확률 척도에 대한 예측 변수의 선형성을 가정한다고 생각합니다. DR Cox가 1958 년에 회귀 스플라인과 같은 도구를 사용하여 모델을 확장 할 수있는 컴퓨팅을 사용할 수 없었던 당시 로지스틱 모델을 발명했을 때만 사실이었습니다. 로지스틱 회귀 분석의 유일한 약점은 모형에서 허용 할 교호 작용을 지정해야한다는 것입니다. 대부분의 데이터 세트에서 부가적인 주 효과는 일반적으로 상호 작용보다 훨씬 강력한 예측 변수이므로 상호 작용에 우선 순위가 동일한 머신 러닝 방법은 불안정하고 해석하기 어려우며 예측하기 위해 로지스틱 회귀보다 큰 표본 크기가 필요할 수 있기 때문에 이는 강도로 바뀝니다. 잘.


6
+1. 솔직히 말해서, SVM이 유용하다는 것을 결코 발견하지 못했습니다. 그들은 섹시하지만 내 경험상 훈련하고 점수를 올리는 데 느리며 (커널을 포함하여) 바이올린으로 선택해야 할 많은 선택이 있습니다. 내가 찾은 신경망뿐만 아니라 많은 옵션과 조정 사항도 있습니다. 로지스틱 회귀는 간단하고 즉시 교정 된 결과를 제공합니다. 실제 사용에는 교정 이 중요합니다. 물론 단점은 선형이기 때문에 임의의 포레스트와 같은 다른 방법뿐만 아니라 군집처럼 크고 덩어리가 많은 데이터에는 적합하지 않습니다.
Wayne

1
좋은 대답입니다. 그건 그렇고, 최근 기계 학습자들이 멋진 방법을 처벌 된 최대 가능성과 같은 전통적인 프레임 워크에 맞추기 위해 왔으며, 이것이 수행되면 멋진 방법 이 더 잘 작동하는 것으로 나타났습니다 . 현재 가장 효과적인 트리 앙상블 부스팅 알고리즘 인 XGBoost를 고려하십시오. 수학은 여기에 있습니다 : xgboost.readthedocs.io/en/latest/model.html . 전통적인 통계 학자에게는 매우 친숙해 보일 것이며 일반적인 손실 함수를 사용하여 여러 일반적인 통계 목적에 맞게 모형을 맞출 수 있습니다.
Paul

5

종종 논리 회귀 분석은 분류기로서 (특히 다른 알고리즘과 비교할 때) 제대로 수행되지 않습니다. 그러나 이것이 로지스틱 회귀가 잊혀져서는 안된다는 의미는 아니며 두 가지 큰 장점이 있습니다.

  1. 확률 적 결과. 프랭크 하렐 (Frank Harrell) (+ 1)은 그의 대답에서 이것을 잘 설명했다.

  2. 다른 독립 변수를 제어하면서 독립 변수가 종속 변수에 미치는 영향을 이해할 수 있습니다. 예를 들어, (의 확률이 얼마나 더 많은 시간 비 조건부 확률에 대한 추정 및 표준 오차를 제공 때 대신 채 상수). Y=1X1=12X2,...Xp


5
그리고 분류기로서 명백한 열악한 성능은 로지스틱 회귀에 내재 된 문제가 아닌 부적절한 정확도 점수를 사용한 결과입니다.
Frank Harrell

@ FrankHarrell : 최근 몇 가지 실험을 해 왔으며 Logistic Regression은 다른 방법보다 훨씬 적은 자유로 데이터에 적합하다고 말합니다. 랜덤 포레스트 또는 GAM의 유연성과 일치하도록 상호 작용을 추가하고 더 많은 기능 엔지니어링을 수행해야합니다. (물론 유연성은 과적 합의 심연을 가로 지르는 줄타기입니다.)
Wayne

3
@wayne 당신이 말한대로,이 덜 자유는 안정성을 제공하기 때문에 많은 경우에 매우 유용합니다
rapaio

3
상호 작용 항이 부가 항이 유연성을 추가하는 것보다 덜 중요하다고 가정 할뿐만 아니라 여러 가지 방식으로 가정을 완화 할 수 있습니다. 나는 원래 답변에서 이것에 대해 더 많이 추가하고 있습니다.
Frank Harrell

2
@rapaio : 그렇습니다. 유연성 은 과적 합뿐만 아니라 다른 방식으로도 위험합니다. 도메인 / 사용 문제입니다. 데이터에 노이즈가 있습니까, 아니면 해당 용어를 사용할 수 있다면 정말 "집약적 / 클러스터"입니까?
Wayne
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.