로지스틱 회귀와 퍼셉트론의 차이점은 무엇입니까?


30

앤드류 응의 머신 러닝 강의 노트 를 보겠습니다 .

메모는 우리에게 로지스틱 회귀와 퍼셉트론을 소개합니다. Perceptron을 설명하는 동안 메모는 로지스틱 회귀에 사용되는 임계 값 함수의 정의 만 변경한다고 말합니다. 그런 다음 Perceptron 모델을 사용하여 분류 할 수 있습니다.

내 질문은-이것이 지정되어야하고 Perceptron을 분류 기술로 고려한다면 로지스틱 회귀는 정확히 무엇입니까? 클래스 중 하나에 속하는 데이터 포인트의 확률을 얻는 데 사용됩니까?


좋은 질문, 나는 당신이 NN에 대한 설명을 시작하는 방법이 매우 중요하다는 것을 알았습니다. 특히 NN은 이해하기가 매우 복잡하기 때문입니다. 내 대답을 고려하십시오.
prosti

답변:


22

요컨대, 로지스틱 회귀에는 ML에서 분류기 사용을 넘어서는 확률 적 의미가 있습니다. 로지스틱 회귀에 대한 몇 가지 메모가 있습니다 .

로지스틱 회귀 분석의 가설은 선형 모델을 기반으로 이진 결과가 발생할 때 불확실성을 측정합니다. 출력은 1 사이에서 점진적으로 경계가 설정 되며 , 기본 회귀선의 값이 0 일 때 로지스틱 방정식은 0.5 = e 0 이 되도록 선형 모형에 의존합니다010 으로 분류 목적으로 자연 차단 점을 제공합니다. 그러나h(ΘTx)=e Θ T x 의 실제 결과에서 확률 정보를 버리는 비용이 발생합니다.0.5=e01+e0 , 종종 흥미 롭습니다 (예 : 소득, 신용 점수, 연령 등의 대출 불이행 가능성).h(ΘTx)=eΘTx1+eΘTx

퍼셉트론 분류 알고리즘은 예제가중치 사이의 내적을 기반으로하는보다 기본적인 절차 입니다. 예제가 잘못 분류 될 때마다 내적 의 부호 는 훈련 세트 의 분류 값 ( 1 )과 다릅니다. 이 문제를 해결하기 위해 가중치 또는 계수 벡터에서 예제 벡터를 반복적으로 더하거나 빼고 요소를 점진적으로 업데이트합니다.11

예를 들어, 예제 의 기능 또는 속성은 x 이며 아이디어는 다음과 같은 경우 예제를 "전달"하는 것입니다.엑스

또는 ...1θ나는엑스나는>문턱

. 부호 함수는 로지스틱 회귀 분석에서 0 1 과반대로 1 또는1 이됩니다.h(엑스)=기호(1θ나는엑스나는문턱)1101

임계 값은 바이어스 계수 흡수됩니다 . 공식은 다음과 같습니다.+θ0

또는 벡터화 : h ( x ) = 부호 ( θ T x ) .h(엑스)=기호(0θ나는엑스나는)h(엑스)=기호(θ엑스)

잘못 분류 된 점은 , 이는 y n 이 음수이거나 내적이 음수 일 때 Θx n 의 내적 은 양 (동일한 방향의 벡터)이됩니다. 반대 방향) 동안 Y , n은 양수이다.기호(θ엑스)와이Θ엑스와이와이


나는 동일한 코스데이터 세트 에서이 두 방법의 차이점에 대해 연구 해 왔으며 , 두 개의 개별 시험의 시험 결과는 대학에 대한 최종 합격과 관련이 있습니다.

결정 경계는 로지스틱 회귀로 쉽게 찾을 수 있지만 퍼셉트론으로 얻은 계수가 로지스틱 회귀에서와 크게 다르지만 결과에 함수를 단순하게 적용 하면 분류가 잘 된다는 것을 알면 흥미로 웠습니다. 연산. 실제로 최대 정확도 (일부 예의 선형 분리 불가능에 의해 설정된 한계)는 두 번째 반복으로 도달했습니다. 다음은 계수의 임의의 벡터에서 시작하여 가중치를 근사한 10 회 반복 경계 경계선의 순서입니다 .sign()10

반복 횟수의 함수로서 분류의 정확도는 위의 비디오 클립에서 거의 최적의 결정 경계에 얼마나 빨리 도달하는지 에 따라 빠르게 증가하고 안정됩니다. 학습 곡선의 도표는 다음과 같습니다.90%

여기에 이미지 설명을 입력하십시오


사용 된 코드는 여기에 있습니다 .


5

여기에 약간의 혼란이있을 수 있습니다. 원래 퍼셉트론은 단계 함수를 전달 함수로 사용하는 신경망 만 참조했습니다. 이 경우 차이는 로지스틱 회귀는 로지스틱 함수를 사용하고 퍼셉트론은 단계 함수를 사용한다는 것입니다. 일반적으로 두 알고리즘 모두 동일한 결정 경계를 생성해야합니다 (적어도 단일 뉴런 퍼셉트론의 경우). 하나:

  1. 퍼셉트론에 대한 파라미터 벡터는 로지스틱 회귀에 의해 도출 된 것과 비교하여 임의로 스케일링 될 수있다. 모수 벡터의 모든 스케일링은 동일한 경계를 정의하지만 로지스틱 회귀로 계산 된 확률은 정확한 스케일링에 따라 다릅니다.
  2. 단계 함수의 출력은 물론 어떤 종류의 확률로 해석 될 수 없습니다.
  3. 단계 함수는 구별 할 수 없으므로 로지스틱 회귀 분석에 사용되는 것과 동일한 알고리즘을 사용하여 퍼셉트론을 학습 할 수 없습니다.

경우에 따라 퍼셉트론이라는 용어는 로지스틱 함수를 전달 함수로 사용하는 신경망을 지칭하는 데에도 사용됩니다 (단, 원래 용어와 일치하지 않음). 이 경우 로지스틱 회귀와 "perceptron"은 정확히 동일합니다. 물론, 퍼셉트론 (perceptron)을 사용하면 로지스틱 회귀의 스태킹 (동일하지는 않지만 유사)에 다소 관련되는 로지스틱 전달 함수를 사용하여 여러 뉴런을 모두 사용할 수 있습니다.


2

로지스틱 회귀를 사용하여 퍼셉트론을 구축 할 수 있습니다. 로지스틱 회귀는 로지스틱 함수를 사용하여 주어진 입력에서 출력을 만듭니다. 로지스틱 함수는 0과 1 사이의 부드러운 출력을 생성하므로 분류기 (임계 값)로 만들려면 한 가지 더 필요합니다. 퍼셉트론은 물론 물류뿐만 아니라 다른 기능적 형태로 구축 될 수 있습니다 .

로지스틱 회귀는 다음과 같은 모형을 생성합니다. 회귀 부분은 계수b1,b2,b3을 추정하는 방법이며, 로지스틱 부분은 함수 형태ex입니다.

y(x1,x2|b)=eb0+b1x1+b2x21+eb0+b1x1+b2x2
b1,b2,b3ex1+ex

y(x|b)xbyYy~=0y(x|b)<Yy~=1y(x|b)Y


1

둘 다 동일한 로지스틱 변환 모델의 모수를 추정하여 회귀를 적용합니다. 볼록 함수의 특성에 따라 모수의 값은 추정하도록 선택한 방식과 동일합니다. 이전 답변에서 자신을 인용하려면 :

로지스틱 회귀 분석은 Bernoulli 분포의 평균 함수를 선형 방정식 (Beroulli 이벤트의 확률 p와 같은 평균)으로 모델링합니다. 로짓 링크를 평균 (p)의 함수로 사용하면 확률 (log-odds)의 로그를 분석적으로 도출하여 소위 일반 선형 모형의 반응으로 사용할 수 있습니다. 예측 외에도 모델을 인과 추론으로 해석 할 수 있습니다. 이것은 선형 퍼셉트론으로는 달성 할 수없는 것입니다.

퍼셉트론은 wx의 역 로짓 (로지스틱) 함수를 취하며 모델이나 매개 변수에 대해 확률 론적 가정을 사용하지 않습니다. 온라인 교육을 통해 모델 가중치 / 모수에 대해 정확히 동일한 추정치를 제공 할 수 있지만 p- 값, 신뢰 구간 및 기본 확률 모델이 없기 때문에 인과 추론으로 해석 할 수 없습니다.


1

x1,,xNRny1,,yN{1,1}1xi

(1)minimize1Ni=1Nmax(yiβTxi,0).
The optimization variable is βRn+1. From this perspective, the difference between the perceptron algorithm and logistic regression is that the perceptron algorithm minimizes a different objective function. (The derivation of logistic regression via maximum likelihood estimation is well known; in this post I'm focusing on the interpretation of the perceptron algorithm.)

The objective function in problem (1) can be written as 1Nii(β), where

i(β)=max(yiβTxi,0).
A subgradient of i at β is the vector
g={0if yiβTxi0(so yi and βTxi have the same sign)yixiotherwise.
Each epoch of stochastic subgradient descent (with step size t>0)) sweeps through the training observations and, for the ith observation, performs the update
ββtg={βif yi and βTxi have the same signβ+tyixiotherwise.
We recognize that this is the iteration for the perceptron algorithm (with learning rate t).


0

Andrew Ng는 이항 분류 문제를 해결하기위한 모델로 "로지스틱 회귀"라는 용어를 사용했습니다.

논문 에서 보았 듯이 실제로는 모델 자체를 그리지 않습니다.

버킷에 몇 가지 세부 정보를 추가하여 강의 구성에 대한 추론을 찾을 수 있습니다.

"로지스틱 회귀 분석"에 사용되는 모델은 사용자 지정 입력 수와 0에서 1 범위의 출력을 가진 단일 수준 인식입니다.

90 년대에 가장 잘 알려진 활성화 기능은 S 자형 활성화 기능이었으며 백업으로서 훌륭한 수학적 이론이 있습니다.

Andrew Ng가 사용하는 모델의 기능은 0에서 1까지입니다.

또한, 유도체 s'(x) = s(x)(1−s(x)), 여기서 s(x)S 자형 활성화 함수이다.

오류 기능의 경우 L2를 사용하지만 일부 용지에서는 다른 기능을 사용할 수도 있습니다.

요약하자면, "로지스틱 회귀"를 고려할 때, 시그 모이 드 활성화 기능, 사용자 지정 입력 수 및 단일 출력으로 단일 레벨 인식을 고려하십시오.


몇 가지 참고 사항 : 부동 소수점 산술의 경우 ReLU가 오늘날 숨겨진 레이어를 지배하지만 시그 모이 드 활성화 기능에는 아무런 문제가 없지만 가까운 미래의 위치 (또는 다른 산술 단위)에서 시그 모이 드 활성화 기능을 다시 테이블에 넣을 수 있습니다 .

성격, 나는 오늘 사용되는 SLP (단일 레벨 퍼셉트론)를 설명하기 위해 ReLU 함수와 함께 더 간단한 모델을 사용합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.