다층 퍼셉트론 vs 심층 신경망


16

이것은 용어의 문제입니다. 때때로 사람들은 심층 신경망을 "다 계층 퍼셉트론"이라고하는데 왜 이럴까요? 내가 배운 퍼셉트론은 가중치를 역 훈련하는 특정 방법을 사용하는 이진 임계 값 출력을 가진 단일 계층 분류기 (또는 회귀)입니다. 퍼셉트론의 출력이 목표 출력과 일치하지 않으면 입력 벡터를 가중치에 더하거나 뺍니다 (퍼셉트론이 위양성 또는 위양성을 제공했는지에 따라 다름). 매우 원시적 인 머신 러닝 알고리즘입니다. 훈련 절차는 다층 사례로 일반화되지 않는 것으로 보입니다 (적어도 수정하지 않은 경우). 심층 신경망은 체인 규칙을 사용하여 네트워크의 모든 가중치를 통해 비용 함수의 그라디언트를 다시 전파하는 백프로 프를 통해 학습됩니다.

그래서 문제는입니다. "다층 퍼셉트론"은 "심층 신경망"과 같은 것입니까? 그렇다면 왜이 용어가 사용됩니까? 불필요하게 혼란스러운 것 같습니다. 또한 용어가 다소 상호 교환 가능하다고 가정하면 완전히 연결된 레이어로 구성된 피드 포워드 네트워크 (컨볼 루션 레이어 또는 반복 연결 없음)를 참조 할 때 "멀티 레이어 퍼셉트론"이라는 용어 만 보았습니다. 이 용어는 얼마나 광범위합니까? 예를 들어, Inception net을 언급 할 때 "다층 퍼셉트론"이라는 용어를 사용합니까? NLP에 사용 된 LSTM 모듈을 사용하는 반복 네트워크는 어떻습니까?


1
딥 뉴럴 네트워크 => 1 숨겨진 레이어를 갖는 뉴럴 네트워크, MLP는이 범주에 속합니다.

그냥 브랜드 변경. MLP는 90 년대에 과장되고 SVM에 의해 대체되었으므로 2000 년대에 그것을 다른 것으로 불러야합니다. dnn은 더 많은 레이어를 가지고 있지만 Le Net [MLP / CNN] (1998) 2 convolutional 2가 완전히 연결된 것과 같이 큰 차이는 없습니다. alexnet = DNN (2012) 5 개의 회선 및 3 개의 완전히 연결되었습니다.
seanv507

SVM은 그라디언트 상승을 기반으로하고 ANN은 그라디언트 하강을 기반으로하므로 실제로 ANN을 대체하지 않았습니다. 대학원생들은 ANN에 대해 전혀 몰랐기 때문에 SVM은 과매도되었고 과도하게 사용되었습니다. SVM을 실행하기 위해 학생들은 R 패키지를 가져 와서 완료했습니다. 그러나 ANN의 경우 해석 적 언어 관점이 아닌 숫자 방식 관점에서 이해하기 위해 전체 학기가 필요합니다.
JoleT

답변:


21

MLP (Multi-Layer Perceptron)는 DNN (Deep Neural Network)의 하위 집합으로 간주 할 수 있지만 종종 문헌에서 상호 교환 적으로 사용됩니다.

퍼셉트론은 학습 규칙에 따라 이름이 지정되었다는 가정이 잘못되었습니다. 고전적인 "퍼셉트론 업데이트 규칙"은이를 훈련시키는 데 사용될 수있는 방법 중 하나입니다. 퍼셉트론 업데이트 규칙이 그라디언트를 없애고 폭발하는 경향이있어 레이어 이상으로 네트워크를 훈련시킬 수 없었기 때문에 신경망의 초기 거부는 바로이 이유 때문이었습니다.

훈련 네트워크에서 역 전파 (back-propagation)의 사용은 tanhsigmoid 와 같은 대체 스 쿼싱 활성화 기능을 사용하게했다 .

그래서 질문에 대답하기 위해

질문은 ~이야. "다층 퍼셉트론"은 "심층 신경망"과 같은 것입니까?

MLP는 DNN의 하위 집합입니다. DNN은 루프를 가질 수 있지만 MLP는 항상 피드 포워드입니다.

다층 퍼셉트론 (MLP)은 유한 비 주기적 그래프입니다

이 용어는 왜 사용됩니까?

과학 문헌에 사용 된 많은 용어는 시대의 경향과 관련이 있으며 따라 잡았습니다.

이 용어는 얼마나 광범위합니까? 예를 들어, Inception net을 언급 할 때 "다층 퍼셉트론"이라는 용어를 사용합니까? NLP에 사용 된 LSTM 모듈을 사용하는 반복 네트워크는 어떻습니까?

따라서 연결 사이에주기가 없기 때문에 처음에는 회선 네트워크, resnet 등이 모두 MLP입니다. 레이어를 건너 뛰는 바로 가기 연결이 있더라도 앞으로 진행되는 한 다층 퍼셉트론이라고 할 수 있습니다. 그러나 LSTM 또는 Vanilla RNN 등은 주기적 연결을 가지므로 MLP라고 할 수는 없지만 DNN의 하위 집합입니다.

이것은 내가 이해 한 것입니다. 내가 틀렸다면 정정 해주세요.

참조 링크 :

/cs/53521/what-is-difference-between-multilayer-perceptron-and-multilayer-neural-network

https://ko.wikipedia.org/wiki/Multilayer_perceptron

https://ko.wikipedia.org/wiki/Perceptron

http://ml.informatik.uni-freiburg.de/former/_media/teaching/ss10/05_mlps.printer.pdf


1
호기심에서 나는 로지스틱 회귀 클래스 멤버쉽 대신 클래스 1 멤버쉽의 확률을 추정하기 때문에 회귀 기술 이라고 생각했습니다 . 따라서 그것은 나에게 분류 기술이 아닌 것 같습니다 (연구자 / 분석가는 로지스틱 회귀에 기반하여 분류하기 위해 확률 차단을 결정해야합니다).
IWS

@IWS 당신이 맞아요. 이 사이트의 다양한 사용자는 로지스틱 회귀가 분류자가 아닌 (조건부) 확률 추정의 모델이라는 점을 반복해서 지적했습니다. 예를 들어 여기를 참조 하십시오 .
DeltaIV

1
수정하기 위해 응답을 편집했습니다. 예를 들어 "로지스틱 회귀"는 분류 기술이므로 "회귀"라고 말하면 안됩니다 . @DeltaIV가 공유하는 링크를 통해 분류 기가 아닌 회귀 인 이유를 매우 명확하게 알 수 있습니다.
m1cro1ce

8

좋은 질문 : 딥 러닝 분야에서 통계 학습과 마찬가지로 항상 잘 자르고 명확하게 정의되지는 않습니다 (많은 과대 광고가 있기 때문에) 수학에서와 같이 엄격한 정의를 찾을 것으로 기대하지 마십시오. 어쨌든 다층 퍼셉트론은 특정 피드 포워드 신경망 아키텍처로, 완전히 연결된 여러 레이어를 쌓아서 (콘볼 루션 레이어가 전혀 없음) 숨겨진 유닛의 활성화 기능이 종종 시그 모이 드 또는 황갈색입니다. 출력 계층의 노드에는 일반적으로 softmax 활성화 기능 (분류) 또는 선형 활성화 기능 (회귀)이 있습니다. 일반적인 MLP 아키텍처는 "심층적"이 아니므로 숨겨진 레이어가 많지 않습니다. 일반적으로 1 ~ 5 개의 숨겨진 레이어가 있습니다. 이 신경망은 80 년대에 일반적이었습니다.

이제 Deep Neural Network를 사용하면 많은 계층 (19, 22, 152, ... 심지어 > 1200 )을 가진 네트워크를 의미합니다 . 참고

  • 네트워크의 아키텍처를 지정하지 않았으므로 피드 포워드, 반복 등이 될 수 있습니다.
  • 연결의 특성을 지정하지 않았으므로 레이어, 회선 레이어, 반복 등을 완전히 연결할 수 있습니다.
  • "다수"레이어 는 분명한 정의 가 아닙니다 .

32×32+32×10=134411584무게. 이것은 오늘날의 표준에 의한 NN입니다. 그러나 적당히 큰 데이터 세트에서 계속 학습하면 수렴 속도가 엄청나게 느려집니다. 이는 가중치 수가 많을뿐 아니라 소실 그라데이션 문제 로 인한 것입니다. 역전 파는 각 계층에 오류를 곱하여 손실 함수의 경사를 계산합니다.이 작은 숫자는 더 많은 계층을 추가할수록 기하 급수적으로 작아집니다. 따라서 오류가 네트워크에 전파되지 않거나 매우 느리게 전파되지 않으며 훈련 기간의 오류가 훈련 시대에 따라 감소하는 것처럼 보입니다.

그리고 이것은 작은 네트워크였습니다. AlexNet이라는 깊은 Convolutional Neural Networks에는 5 개의 레이어가 있지만 6 천만 개의 가중치가 있으며 오늘날의 표준에 의해 작은 것으로 간주됩니다! 가중치가 너무 많으면 모든 데이터 세트가 "소형"입니다. 분류에 사용되는 이미지의 데이터 세트 인 ImageNet도 "백만"이미지 만 있으므로 오버 피트 위험은 얕은 네트워크보다 훨씬 큽니다.

따라서 딥 러닝은 많은 수의 레이어와 가중치로 신경망을 훈련시키는 데 사용되는 툴 세트로 이해되어 일반화 오류가 낮습니다. 이 작업은 소규모 네트워크보다 더 많은 과제를 제기합니다. Deep Multilayer Perceptron을 빌드하고 훈련시킬 수는 있지만 (오늘 딥 러닝이 사용되는 많은 작업에 최적의 아키텍처가 아니라는 사실을 제외하고) 네트워크가 이전에 사용되었을 때와 다른 도구를 사용하게 될 것입니다 "얕은". 예를 들어, 소실 구배 문제를 완화하기 때문에 ReLU 활성화 장치를 시그 모이 드 또는 탄에 비해 선호 할 수 있습니다.


m1cro1ce의 이전 답변에 따르면 conv-net (예 : 시작)도 MLP로 분류 할 수 있지만 MLP는 회선 레이어를 가질 수 없도록 지정합니다 (그리고 활성화 기능의 선택이 MLP라고 불리는 것에 영향을 미칩니 까?). 정확한 MLP의 의미와 의미가 아닌 것에 대한 문헌 (또는 ML 커뮤니티 내)에 합의가 있습니까? 누군가가 "작업 X에 대한 MLP를 작성하길 원합니다"라고 말하면 어떻게해야합니까?
enumaris

@ enumaris 당신은 아무것도 할 법에 의해 제한되지 않습니다. 마지막으로 확인했을 때 CNN을 구축하고 MLP라고 부르는 것은 여전히 ​​합법적입니다. 나는 물론 그런 종이 / 포스터 / 무엇이든 거부하지만 그것은 저에 해당하며, 용어의 엄격한 사용으로 정확하게 유명하지 않은 전체 DL 커뮤니티에 대해 말할 수는 없습니다. 어쨌든 내 정의 : 완전히 연결된 레이어와 적어도 일부 비선형 활성화 기능을 가진 피드 포워드 신경망 (그렇지 않으면 레이어 수에 관계없이 항상 단일 레이어 선형 네트워크와 동일)은 찾을 수있는 것과 같습니다. .
DeltaIV

... 위키 백과 . "MLP가 완전히 연결되었으므로 [..]"레이어 섹션의 라인을 참고하십시오. 이것은 CNN을 배제합니다. 이 책 에서 동일한 정의 (피드 포워드, 완전 연결된, 적어도 숨겨진 레이어에는 비선형 활성화 기능이 있음)를 찾을 수 있습니다 . 활성화 기능에 관해서는 분명히 아무것도 암시하지 않는 것 같습니다. 방금 MLP에 tanh 또는 sigmoid 활성화 기능이 있지만 필수는 아닙니다.
DeltaIV

이 두 가지 답변 중 하나를 허용되는 답변으로 표시하고 싶지만 서로 상충되는 답변을 제공하므로 문헌이나 ML 커뮤니티에서 가장 일반적으로 발견되는 답변을 알고 싶습니다.
enumaris

@enumaris 귀하의 질문의 제목은 "Multi-layer perceptron vs deep neural network"이며, a "multi-layer perceptron" the same thing as a "deep neural network"이 질문에 대한 답변이 내 질문과 m1cro1ce의 답변 둘 다에 자세히 설명되어 있습니다. 이제 "CNN이 MLP의 하위 집합입니까?"라는 질문을합니다. -스택 교환 사이트에는 게시에 대한 하나의 질문에 대한 정책이 있습니다.
DeltaIV

0

많은 게시물에서 읽은 내용에 따라 추가하고 싶습니다.

DLP를 통해 MLP (Multi-Layer Perceptron) 및 CNN (Convolutional Neural Networks)과 같은 다양한 아키텍처가 있으므로 서로 다른 유형의 문제를 해결하도록 설계된 다른 유형의 DNN입니다.

MLP 는 다음에 사용되는 클래식 유형의 NN입니다.

  • 테이블 형식 데이터 집합 (데이터베이스 테이블에서와 같이 데이터를 열 형식으로 포함)
  • 분류 / 회귀, 예측 pbs.

MLP는 일반적으로 입력에서 출력으로의 매핑을 lean하기 위해 사용될 수 있습니다.

그러나 이미지 모델과 같은 다른 형식을 기준선 비교 지점으로 사용하여 다른 모델이 더 적합한 지 확인할 수 있습니다.

CNN은 이미지 데이터를 출력 변수에 매핑하도록 설계되었습니다. 그것은 사용됩니다 :

  • 이미지 데이터
  • 분류 / 회귀 예측 pbs,

Spacial 관계 가있는 데이터와 잘 작동합니다 .

전통적으로 2D 데이터에 사용되었지만 1D 데이터에 사용할 수 있으며 CNN은 일부 1D pbs에서 최첨단 기술을 달성합니다.

먼저 어떤 유형의 아키텍처를 사용해야하는지 문제 (어떤 종류의 데이터, 분류 / 회귀 문제 등)로 해결하려는 목표를 "명확하게 정의" 해야합니다.

그 개념에 대해 더 많이 이해하기 위해 나에게 매우 유용한 링크를 참조 할 수 있습니다 :).

이 추가가 유용하기를 바랍니다 : p.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.