퍼셉트론 규칙에서 그라디언트 디센트까지 : S 자형 활성화 기능을 가진 퍼셉트론은 로지스틱 회귀와 어떻게 다른가?


21

본질적으로, 내 질문은 다층 퍼셉트론에서 퍼셉트론이 시그 모이 드 활성화 기능과 함께 사용된다는 것입니다. 업데이트 규칙에서 는 다음과 같이 계산됩니다.와이^

와이^=11+특급(엑스나는)

이 "sigmoid"Perceptron은 로지스틱 회귀와 어떻게 다릅니 까?

단일 계층 시그 모이 드 퍼셉트론은 업데이트 규칙의또한 예측에서 을 합니다. 그러나 다층 퍼셉트론에서, S 자형 활성화 함수는 로지스틱 회귀 및 단일 층 퍼셉트론과 달리 온 오프 신호가 아닌 확률을 반환하는 데 사용됩니다. 기호( Y =1와이^=11+특급(엑스나는)기호(와이^=11+특급(엑스나는))

"퍼셉트론 (Perceptron)"이라는 용어의 사용법은 약간 모호 할 수 있으므로 단일 레이어 퍼셉트론에 대한 현재의 이해를 바탕으로 몇 가지 배경을 제공하겠습니다.

클래식 퍼셉트론 규칙

먼저 F. Rosenblatt의 클래식 퍼셉트론은 step 함수를 사용합니다.

Δw=η(와이나는와이나는^)엑스나는와이나는,와이나는^{1,1}

무게를 업데이트

wk:=wk+Δwk(k{1,...,d})

그래서 다음과 같이 계산됩니다y^

y^=sign(wTxi)=sign(w0+w1xi1+...+wdxid)


그라데이션 하강

경사 하강을 사용하여 비용 함수를 최적화 (최소화)

J(w)=i12(yiyi^)2yi,yi^R

여기서 우리는 "실제"숫자를 가지므로, 분류 출력이 임계 값을 갖는 차이와 함께 선형 회귀와 기본적으로 유사하다는 것을 알 수 있습니다.

여기에서 가중치를 업데이트 할 때 그라디언트의 음의 방향으로 단계를 밟습니다.

Δwk=ηJwk=ηi(yiyi^)(xik)=ηi(yiyi^)xik

그러나 여기 에 대신y^=wTxiy^=sign(wTxi)

wk:=w케이+Δ케이(케이{1,...,})

또한 새로운 학습 샘플이 도착함에 따라 가중치를 업데이트하는 클래식 퍼셉트론 규칙 (배치 학습 모드)과는 달리 전체 학습 데이터 세트 (배치 학습 모드에서)에 대한 전체 패스에 대한 제곱 오류의 합을 계산합니다 (스토크 스틱 그래디언트 디센트-온라인) 배우기).


S 자형 활성화 기능

자, 여기 내 질문이 있습니다.

다층 퍼셉트론에서, 퍼셉트론은 시그 모이 드 활성화 기능과 함께 사용됩니다. 업데이트 규칙에서 는 다음과 같이 계산됩니다.와이^

와이^=11+특급(엑스나는)

이 "sigmoid"Perceptron은 로지스틱 회귀와 어떻게 다릅니 까?


4
놀랍게도,이 질문만으로도 기계 학습과 신경망 기본 사항을 요약 할 수있었습니다!
varun

답변:


4

경사 하강을 사용하여 비용 함수를 최적화 (최소화)

J()=나는12(와이나는와이나는^)2와이나는,와이나는^아르 자형

평균 제곱 오차를 최소화하면 로지스틱 회귀와 다릅니다. 로지스틱 회귀는 일반적으로 교차 엔트로피 손실과 관련이 있습니다 . 여기는 scikit-learn 라이브러리 의 소개 페이지입니다 .


(다층 퍼셉트론은 신경망이라고하는 것과 같다고 가정합니다.)

단일 레이어 신경망에 대해 교차 엔트로피 손실 (정규화 사용)을 사용한 경우 로지스틱 회귀 분석과 동일한 모델 (로그 선형 모델)이됩니다. 대신 멀티 레이어 네트워크를 사용하는 경우 파라 메트릭 비선형 기저 함수를 사용하여 로지스틱 회귀로 간주 할 수 있습니다.


그러나 다층 퍼셉트론에서, S 자형 활성화 함수는 로지스틱 회귀 및 단일 층 퍼셉트론과 달리 온 오프 신호가 아닌 확률을 반환하는 데 사용됩니다.

S 자형 활성화 함수를 갖는 로지스틱 회귀 및 신경망의 출력은 확률로 해석 될 수 있습니다. 교차 엔트로피 손실은 실제로 Bernoulli 분포를 통해 정의 된 음의 로그 가능성입니다.


2

그래디언트 디센트는 모든 매개 변수의 기능을 계속해야하는 출력 오류를 줄이는 방식으로 각 매개 변수를 업데이트하기 때문입니다. 임계 값 기반 활성화는 구별 할 수 없으므로 시그 모이 드 또는 탄 활성화가 사용됩니다.

단층 NN은 다음과 같습니다.

J(,)ω케이j=J(,)케이케이ω케이j

J(,)케이=(에이케이와이케이)(에이케이(1에이케이))

케이ω케이j=엑스케이

J(,)=12(와이케이에이케이)2

에이케이=에스나는(케이)=에스나는(케이j엑스케이+케이)

활성화 함수가 기본 단계 함수 (임계 값) 인 경우 wrt 미분은 미분 할 수 없습니다.J케이

다음 은 일반적인 설명 링크입니다.

편집 : 어쩌면 perceptron의 의미를 오해했을 것입니다. 내가 실수하지 않으면 퍼셉트론은 입력의 무게를 합한 것으로 간주됩니다. 로지스틱 함수로 임계 값을 변경하면 로지스틱 회귀로 바뀝니다. 시그 모이 드 (로지스틱) 활성화 기능이있는 다층 NN은 로지스틱 회귀로 구성된 계단식 레이어입니다.


3
이것은 질문에 대답하지 않습니다.
Neil G

이 멋진 의견을 보내 주셔서 감사하지만 이것은 내가 요구 한 것이 아닙니다. 내 질문은 "그라데이션 하강"이 아니라 "시그 모이 드 활성화 기능을 가진 퍼셉트론이 로지스틱 회귀와 다른

@SebastianRaschka 그들은 동일합니다. 그들이 다르다고 생각하는 이유는 무엇입니까? 경사 하강 평가에서 실수를 보았 기 때문에 경사 하강을 운전했습니다. 운전할 때 라고 가정 했습니다. 그렇기 때문에 Perceptron과 Gradient 업데이트에 대해 동일한 파생을 찾았습니다. 와이=엑스
yasin.yazici

1
"그들이 다르다고 생각하게 만드는 이유는 무엇입니까?" -명명법에 따라 다른 것이 있는지 궁금합니다. 왜 우리가 같은 것에 대해 두 개의 다른 용어를 가지고 있는지 궁금합니다. Btw. 내 질문에 그라데이션 하강에서 실수가 보이지 않습니다. 가 정확합니다. 또한 "perceptron rule"과 "gradient descent"업데이트간에 동일한 파생 항목을 찾지 못했습니다. 전자는 온라인 학습 방식 (샘플 별 샘플)으로 수행되고 후자는 일괄 처리로 수행되며 단계별 함수를 사용하는 대신 제곱 오차의 합계를 최소화합니다. 와이=j엑스j나는

혼란을 초래할 수있는 것은 "분류"와 "학습"단계를 구분하는 것입니다. 분류 단계는 항상 임계 값입니다 (원하는 경우 1 또는 1 또는 0과 1). 그러나 고전적인 퍼셉트론에서는 업데이트가 다릅니다. 업데이트는 를 통해 이루어 확률 적 그라디언트 디센트는 η(와이에스나는(엑스나는))엑스η(와이엑스나는)엑스나는

2

직관적으로, 다중 계층 퍼셉트론은 입력 기능에서 비선형 변환을 계산 한 다음 이러한 변환 된 변수를 로지스틱 회귀로 공급하는 것으로 생각합니다.

다항식 (즉, N> 2 가능한 레이블) 경우가 더 명확 할 수 있습니다. 기존의 로지스틱 회귀 분석에서는 주어진 데이터 포인트 에 대해 각 클래스 에 대해 "점수" 를 계산하려고합니다 . 그리고 이것을 확률로 변환하는 방법은 모든 클래스의 점수 합계 에 대해 주어진 클래스의 점수를 입니다. 따라서 점수가 큰 클래스는 결합 점수의 점유율이 높으므로 확률이 높습니다. 단일 클래스를 강제로 예측하는 경우 확률이 가장 높은 클래스 (또한 가장 큰 점수)를 선택합니다.β나는엑스나는β나는엑스jβj엑스

나는 당신에 대해 모르지만 모델링 과정과 연구에서 입력 기능에 대한 모든 종류의 현명하고 어리석은 변형을 시도하여 그 중요성과 전반적인 모델 예측을 개선했습니다. 물건을 제곱하고, 통나무를 찍고, 둘을 속도로 결합하는 등 나는 수치심이 없었지만 인내심은 제한적이었습니다.

다층 퍼셉트론은 시간이 너무 많은 대학원생과 같습니다. 그래디언트 디센트 트레이닝 및 시그 모이 드 활성화를 통해 원래 입력 변수의 임의의 비선형 조합을 계산합니다. 퍼셉트론의 마지막 레이어에서 이러한 변수 는 위의 방정식에서 효과적으로 가되고 그래디언트 디센트는 연관된 final 도 계산합니다 . MLP 프레임 워크는 이것의 추상화 일뿐입니다.엑스β나는

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.