요컨대, 로지스틱 회귀에는 ML에서 분류기 사용을 넘어서는 확률 적 의미가 있습니다. 로지스틱 회귀에 대한 몇 가지 메모가 있습니다 .
로지스틱 회귀 분석의 가설은 선형 모델을 기반으로 이진 결과가 발생할 때 불확실성을 측정합니다. 출력은 과 1 사이에서 점진적으로 경계가 설정 되며 , 기본 회귀선의 값이 0 일 때 로지스틱 방정식은 0.5 = e 0 이 되도록 선형 모형에 의존합니다010 으로 분류 목적으로 자연 차단 점을 제공합니다. 그러나h(ΘTx)=e Θ T x 의 실제 결과에서 확률 정보를 버리는 비용이 발생합니다.0.5 = 전자01 + 전자0 , 종종 흥미 롭습니다 (예 : 소득, 신용 점수, 연령 등의 대출 불이행 가능성).h ( Θ티x ) = 전자Θ티엑스1 + 전자Θ티엑스
퍼셉트론 분류 알고리즘은 예제 와 가중치 사이의 내적을 기반으로하는보다 기본적인 절차 입니다. 예제가 잘못 분류 될 때마다 내적 의 부호 는 훈련 세트 의 분류 값 ( 및 1 )과 다릅니다. 이 문제를 해결하기 위해 가중치 또는 계수 벡터에서 예제 벡터를 반복적으로 더하거나 빼고 요소를 점진적으로 업데이트합니다.− 11
예를 들어, 예제 의 기능 또는 속성은 x 이며 아이디어는 다음과 같은 경우 예제를 "전달"하는 것입니다.디엑스
또는 ...∑1디θ나는엑스나는> 문턱
. 부호 함수는 로지스틱 회귀 분석에서 0 및 1 과반대로 1 또는 − 1 이됩니다.h ( x ) = 부호 ( ∑1디θ나는엑스나는- theshold )1− 101
임계 값은 바이어스 계수 흡수됩니다 . 공식은 다음과 같습니다.+ θ0
또는 벡터화 : h ( x ) = 부호 ( θ T x ) .h ( x ) = 부호 ( ∑0디θ나는엑스나는)h ( x ) = 부호 ( θ티x )
잘못 분류 된 점은 , 이는 y n 이 음수이거나 내적이 음수 일 때 Θ 및 x n 의 내적 은 양 (동일한 방향의 벡터)이됩니다. 반대 방향) 동안 Y , n은 양수이다.부호 ( θ티x ) ≠ y엔Θ엑스엔와이엔와이엔
나는 동일한 코스 의 데이터 세트 에서이 두 방법의 차이점에 대해 연구 해 왔으며 , 두 개의 개별 시험의 시험 결과는 대학에 대한 최종 합격과 관련이 있습니다.
결정 경계는 로지스틱 회귀로 쉽게 찾을 수 있지만 퍼셉트론으로 얻은 계수가 로지스틱 회귀에서와 크게 다르지만 결과에 함수를 단순하게 적용 하면 분류가 잘 된다는 것을 알면 흥미로 웠습니다. 연산. 실제로 최대 정확도 (일부 예의 선형 분리 불가능에 의해 설정된 한계)는 두 번째 반복으로 도달했습니다. 다음은 계수의 임의의 벡터에서 시작하여 가중치를 근사한 10 회 반복 경계 경계선의 순서입니다 .sign(⋅)10
반복 횟수의 함수로서 분류의 정확도는 위의 비디오 클립에서 거의 최적의 결정 경계에 얼마나 빨리 도달하는지 에 따라 빠르게 증가하고 안정됩니다. 학습 곡선의 도표는 다음과 같습니다.90%
사용 된 코드는 여기에 있습니다 .