나는 현재 분류를 수행하는 방법을 스스로 가르치고 있으며, 특히 벡터 머신, 신경망 및 로지스틱 회귀를 지원하는 세 가지 방법을 찾고 있습니다. 내가 이해하려고하는 것은 로지스틱 회귀가 다른 두 가지보다 더 나은 성능을 보이는 이유입니다.
로지스틱 회귀에 대한 이해에서 로지스틱 함수를 전체 데이터에 맞추는 것이 아이디어입니다. 따라서 내 데이터가 이진 인 경우 레이블이 0 인 내 데이터는 모두 값 0에 매핑되어야하고 값이 1 인 모든 데이터는 값 1에 매핑되어야합니다 (또는 데이터에 가까워 야 함). 이제 로지스틱 함수가 연속적이고 매끄 럽기 때문에이 회귀를 수행하려면 모든 데이터가 곡선에 맞아야합니다. 의사 결정 경계 근처의 데이터 포인트에는 더 이상 중요하지 않으며, 모든 데이터 포인트는 다른 양만큼 손실에 기여합니다.
그러나 서포트 벡터 머신과 신경망에서는 결정 경계 근처의 데이터 포인트 만 중요합니다. 데이터 포인트가 의사 결정 경계의 같은쪽에있는 한 동일한 손실에 기여합니다.
따라서 왜 결정에 관련된 어려운 데이터에만 초점을 맞추기보다는 많은 중요하지 않은 (쉽게 분류 할 수있는) 데이터에 곡선을 맞추려고 할 때 "자원 낭비"라는 점에서 로지스틱 회귀가 지원 벡터 시스템이나 신경망보다 성능이 우수한 이유는 무엇입니까? 경계?