ReLU 활성화가 SVM과 동일한 단일 계층 NeuralNetwork?


10

n 개의 입력과 단일 출력 (이진 분류 작업)이있는 간단한 단일 레이어 신경망이 있다고 가정합니다. 출력 노드에서 활성화 함수를 시그 모이 드 함수로 설정하면 결과는 로지스틱 회귀 분류기입니다.

이 시나리오에서 출력 활성화를 ReLU (정류 된 선형 단위)로 변경하면 결과 구조가 SVM과 같거나 비슷합니까?

왜 그렇지 않습니까?


왜 그런지에 대한 가설이 있습니까? 단일 퍼셉트론 = 로지스틱이 활성화 때문인 이유-수학적으로 (서로 다르게 훈련 될 수도 있지만) 본질적으로 동일한 모델-선형 가중치 + 행렬 곱셈에 적용된 시그 모이 드. SVM은 데이터를 분리하기위한 최상의 선을 찾는 것과는 매우 다르게 작동합니다. "가중치"/ "매트릭스"보다 기하학적입니다. 나를 위해, 내가 생각해야 할 ReLU에 대해서는 아무것도 없습니다. 아, 그것들은 SVM과 같습니다. (물론 및 선형 svm은 매우 유사하게 수행되는 경향이 있음)
metjush

svm의 최대 마진 목표와 relu 활성화 기능은 동일하게 보입니다. 따라서 질문입니다.
AD

"SVM은 데이터를 분리하기위한 최상의 라인을 찾는다-그들은"가중치 "/"매트릭스 "보다 더 기하학적이다. 즉, 약간 손을-다-모든 선형 분류기는 로지스틱 회귀를 포함하여 데이터를 분리하기위한 최상의 라인을 찾는다 -perceptron.
AD

답변:


11

E=max(1ty,0)

네트워크 손실이 SVM과 동일한 형태가 되려면 출력 계층에서 비선형 활성화 기능을 제거하고 힌지 손실을 사용하여 역 전파를 수행하면됩니다.

E=ln(1+exp(ty))

따라서 손실 함수 측면에서 SVM과 로지스틱 회귀는 매우 가깝지만 SVM은 지원 벡터를 기반으로 훈련 및 추론에 대해 매우 다른 알고리즘을 사용합니다.

Pattern Recognition and Machine Learning 의 섹션 7.1.2에서 SVM과 로지스틱 회귀의 관계에 대한 좋은 토론이 있습니다 .

여기에 이미지 설명을 입력하십시오


책을 찾아 주셔서 감사합니다. 따라서 활성화 기능과는 별도로 사용되는 최적화 알고리즘이 실제로 다릅니다. LR의 경우 제한되지 않은 간단한 경사 하강을 사용할 수 있지만 SVM에서는 일반적으로 제한된 최적화를 해결합니다.
AD
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.