인공 신경망이란 무엇입니까?


15

우리가 신경망 문학 을 탐구함에 따라 , 우리는 신경 형태 토폴로지 ( "Neural-Network"-like architectures)로 다른 방법을 식별하게된다. 저는 보편적 근사 정리 에 대해 이야기하고 있지 않습니다 . 아래에 예가 나와 있습니다.

그렇다면 인공 신경망의 정의는 무엇입니까? 그것의 토폴로지는 모든 것을 다루는 것처럼 보입니다.


예 :

우리가 처음으로 식별하는 것 중 하나는 PCA와 인코더 및 디코더에 묶인 가중치를 가진 선형 자동 인코더와 병목 현상 계층의 임계 값 활성화를 사용하는 것입니다.

또한 선형 모델 (특별한 로지스틱 회귀)과 숨겨진 계층이없고 단일 출력 계층이있는 신경망간에 공통 식별이 이루어집니다. 이 식별은 여러 문을 엽니 다.

푸리에와 테일러 시리즈? ANN . SVM ? ANN. 가우스 프로세스? ANN (무한 숨겨진 단위를 가진 단일 숨겨진 레이어).

따라서이 알고리즘의 특수한 손실 함수가 포함 된 임의의 정규화 된 버전을 신경망 프레임 워크에 쉽게 통합 할 수 있습니다.

그러나 우리가 더 많이 파낼수록 더 많은 유사성이 나타납니다. 방금 Deep Neural Decision Trees넘어서서 결정 트리 를 사용하여 특정 ANN 아키텍처를 식별하여 ANN 방법 (예 : Gradient Descent backpropagation)으로 학습 할 수 있습니다. 이것으로부터 우리는 오직 신경망 토폴로지에서만 랜덤 포레스트와 그라디언트 부스트 결정 트리를 구성 할 수 있습니다.

인공 신경망으로 모든 것을 표현할 수 있다면 인공 신경망을 정의하는 것은 무엇입니까?


Deep Neural Decision Trees에 관한 논문은 아직 멀었습니다. 일반적으로 활성화 기능은 외부 제품이 아닌 실제 가치 기능입니다. 그래서 그들은 우리가 일반적으로 생각하는 것처럼 ANN을 실제로 논의하지 않고 널리 사용되거나 받아 들여지지 않는 수학적 일반화입니다. ANN이 의사 결정 트리와 다르다는 것을 나타 내기 위해 모든 ANN이 파라 메트릭 (유한 매개 변수 공간이 있음) 인 반면 트리는 비모수 적 (잠재적으로 무한한 매개 변수 공간이 있음)을 나타냅니다.
olooney

@olooney Kronecker 제품은 활성화 기능이 아니며 단순히 컨볼 루션 또는 활성화에 대해 정의한 다른 작업과 같이 이전 계층의 출력에 대한 작업입니다. DNDT는 모든 의사 결정 트리를 나타낼 수 있으며 모든 DNDT는 의사 결정 트리로 나타낼 수 있습니다.
Firebug

1
@olooney 활성화 기능 정의에 따라 Softmax는 활성화 기능이 아닙니다.
Firebug

2
나는이 질문에 대한 동기를 이해하지 못한다. ANN의 가능한 느슨한 정의는 지향 그래픽 모델이며, 뉴런 (즉, 활성화 기능)을 사용하여 입력 / 출력을 처리하고 대부분의 경우 기울기 하강을 사용하여 훈련시키는 것입니다. "모든 것이 ANN으로 표현 될 수있다"고 말할 때 , 언급 된 다른 모델과 ANN 사이에 정확한 매핑 이 있는지 구체적으로 묻고 있습니까? 문제는 최적화와 일치하도록 고도로 수정 된 교육 루틴을 만들어야한다는 것입니다.
Alex R.

1
@Sycorax 나도 그와 Hinton이 그것을 암시했습니다. 나는 다른 캠프의 응답자들에게 믿을만한 정보를 제공 할 기회를주고 싶다 :)
Firebug

답변:


6

위르겐 슈미트 후버, " 신경망의 딥 러닝 : 개요 "는 신경망 및 딥 러닝의 주요 개념의 역사를 추적합니다. 그의 관점에서, 신경망은 각 노드가 일부 계산 단위를 나타내는 방향 그래프로 특징 지을 수있는 모든 모델을 본질적으로 포함하는 것으로 보인다. Schmidhuber는 유명한 신경망 연구자이며 Sepp Hochreiter와 함께 LSTM 네트워크에 대한 원본 논문을 썼습니다.

학습 시스템의 어떤 수정 가능한 구성 요소가 성공 또는 실패를 담당합니까? 어떤 변화가 성능을 향상 시킵니까? 이것을 근본적인 신용 할당 문제라고 부릅니다 (Minsky, 1963). 다양한 이론적 의미에서 시간 최적화 된 범용 문제 해결사에 대한 일반적인 신용 할당 방법이 있습니다 (섹션 6.8). 그러나 이번 조사는 인공 신경망 (NN)에서 딥 러닝 (Deep Learning, DL)의 더 좁지 만 상업적으로 중요한 서브 필드에 초점을 맞출 것이다.

표준 신경망 (NN)은 뉴런이라고하는 단순하고 연결된 많은 프로세서로 구성되며, 각각은 실제 활성화 된 활성화 시퀀스를 생성합니다. 입력 뉴런은 환경을 인식하는 센서를 통해 활성화되고 다른 뉴런은 이전에 활성화 된 뉴런의 가중치 연결을 통해 활성화됩니다 (2 절의 세부 정보). 일부 뉴런은 행동을 유발함으로써 환경에 영향을 줄 수 있습니다. 학습 또는 학점 할당은 NN이 자동차 운전과 같은 원하는 행동을 나타내는 가중치를 찾는 것입니다. 문제와 뉴런이 어떻게 연결되어 있는지에 따라, 그러한 행동은 계산 단계의 긴 인과 관계 체인 (3 절)을 필요로 할 수 있으며, 여기서 각 단계는 네트워크의 전체 활성화를 변환합니다 (종종 비선형 방식으로). 딥 러닝은 여러 단계에 걸쳐 정확하게 크레딧을 할당하는 것입니다.

이러한 단계가 거의없는 얕은 NN 형 모델은 몇 세기가 아니라도 수십 년 동안 사용되어왔다 (5.1 절). 여러 연속적인 비선형 뉴런 층을 가진 모델은 적어도 1960 년대 (5.3 절)와 1970 년대 (5.5 절)로 거슬러 올라갑니다. 역 전파 (BP)라고하는 불연속적이고 차별화 된 임의의 깊이의 네트워크에서 교사 기반 SL (Survised Learning)을위한 효율적인 경사 하강 법이 1960 년대와 1970 년대에 개발되었으며 1981 년에 NN에 적용되었습니다 (5.5 절). 그러나 여러 계층의 심층 NN에 대한 BP 기반 교육은 1980 년대 후반 (Sec. 5.6) 실제로는 어려웠으며, 1990 년대 초까지 명백한 연구 주제가되었습니다 (Sec. 5.9). DL은 Unsupervised Learning (UL)의 도움을 받아 실질적으로 실현 가능해졌습니다 (예 : Sec. 5.10 (1991), Sec. 5.15 (2006). 1990 년대와 2000 년대에도 순전히 감독 된 DL (Sec. 5)이 많이 개선되었습니다. 새로운 밀레니엄에서 깊은 NN은 마침내 수많은 중요한 애플리케이션에서 커널 머신 (Vapnik, 1995; Scholkopf et al., 1998)과 같은 대체 머신 러닝 방법을 능가하여 광범위한 관심을 끌었습니다. 실제로 2009 년부터 감독 된 딥 NN은 많은 공식적인 국제 패턴 인식 대회 (예 : 5.17, 5.19, 5.21, 5.22)에서 우승하여 제한된 영역에서 최초의 초인적 시각 패턴 인식 결과를 달성했습니다 (2011 년 5 월 19 일). 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절). 많은 중요한 응용에서 커널 머신 (Vapnik, 1995; Scholkopf et al., 1998)과 같은 대체 머신 러닝 방법보다 성능이 우수합니다. 실제로 2009 년부터 감독 된 딥 NN은 많은 공식적인 국제 패턴 인식 대회 (예 : 5.17, 5.19, 5.21, 5.22)에서 우승하여 제한된 영역에서 최초의 초인적 시각 패턴 인식 결과를 달성했습니다 (2011 년 5 월 19 일). 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절). 많은 중요한 응용에서 커널 머신 (Vapnik, 1995; Scholkopf et al., 1998)과 같은 대체 머신 러닝 방법보다 성능이 우수합니다. 실제로 2009 년부터 감독 된 딥 NN은 많은 공식적인 국제 패턴 인식 대회 (예 : 5.17, 5.19, 5.21, 5.22)에서 우승하여 제한된 영역에서 최초의 초인적 시각 패턴 인식 결과를 달성했습니다 (2011 년 5 월 19 일). 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절). 최초의 초 인간적인 시각 패턴 인식을 달성하면 제한된 영역 (Sec. 5.19, 2011)이됩니다. 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절). 최초의 초 인간적인 시각 패턴 인식을 달성하면 제한된 영역 (Sec. 5.19, 2011)이됩니다. 심층 NN은 또한지도 교사가없는 일반 강화 학습 (RL)과 관련이 있습니다 (6 절).

반면에 머신 러닝 전략을 위해 상호 배타적 인 버킷 분류를 구성하는 것이 반드시 수익성이 있는지 확실하지 않습니다. 모델을 신경망으로 볼 수있는 관점이 있다고 말할 수 있습니다. 나는 모든 관점에서 관점이 반드시 최고이거나 유용하다고 생각하지 않습니다. 예를 들어, 나는 여전히 임의의 숲과 그라디언트 부스트 트리를 구별을 추상화하고 "신경 네트워크 트리"라고 부르는 대신 "트리 앙상블"이라고 언급하려고합니다. 또한 Schmidhuber는 커널 시스템이 NN과 연결되어 있음에도 불구하고 NN과 커널 시스템을 구별합니다. 주로 수많은 중요한 응용 프로그램에서 커널 머신과 같은 대체 머신 러닝 방법을 능가합니다. "


따라서 기본적으로 오늘날 머신 러닝 및 통계에 알려진 모든 모델과 휴리스틱은 Schmidhuber에 의해 ANN으로 간주됩니다.
Firebug

1
나는 실용적인 관점에서 그것을 얻었지만, 거의 모든 모델이 엄밀히 말하면 ANN이라는 사실을 바꾸지는 않습니다 (나는 하나의 모델이 아닌 다른 모델을 생각할 수 없습니다).
Firebug

2
@Firebug ANN의 정의와 동일하도록 학습 또는 '학습 환경'에 배치 된 회귀 또는 (단순 k- 평균 및 기타) 클러스터링 문제를 어떻게 다시 포맷 하시겠습니까?
Sextus Empiricus

1
@Firebug PCA가 특정 자동 인코더와 동등한 것으로 표시 될 수 있다는 사실이 PCA를 "신경망"으로 만드는 방법을 모르겠습니다. 표준 PCA에서는 그라디언트 디센트도 사용하지 않습니다.
amoeba는 Reinstate Monica

1
@Firebug "NN"을 "연결된 계산 노드"로 정의하면 NN이 무엇이든 계산됩니다. 그것이 쓸모는 없지만 확실합니다.
amoeba는

7

ANN의 기본 정의를 원한다면, 입력 및 출력이 활성화 함수를 통해 각 노드에서 처리되고 대부분의 시간 경사 하강이 ANN을 훈련시키는 데 사용되는 지정 그래픽 모델이라고 말할 수 있습니다. 문제는 실제로 어떤 모델이 그래픽 모델로 표현 될 수 있는가하는 것입니다.

나는 전문가는 아니지만 이론적으로 일부 ANN은 튜링 완료로 표시 될 수 있다고 믿습니다. 즉 가능한 무한한 계산을 수행 할 수 있어야합니다. 자원의 수를 마음).

또한 다음과 같은 방법으로 귀하의 질문을 해석하겠습니다.

주어진 모델에 대해 가능한 한 가깝고 합리적인 시간 내에 해당 모델을 에뮬레이션하기 위해 ANN 모델을 함께 사용할 수 있습니까?

바닐라 신경망은 헤비 사이드 단계 활성화를 사용하여 의사 결정 트리를 에뮬레이션 할 수 있습니다. 문제는 이러한 단위 활성화의 그라데이션이 0이므로 정상적인 그라데이션 하강이 작동하지 않는다는 것입니다. "문제 없습니다. 수정 된 형태의 그라데이션 하강을 사용하십시오." 그러나 여전히 충분하지 않습니다. 더 좋은 예를 들어, 그라디언트 부스팅 포리스트가 아닌 XGBOOST와 같은 것을 사용하십시오. 분할 점 선택, 가지 치기, 속도 최적화 등의 추가 작업이 많이 있습니다. 충분히 수정 한 후에는 비슷한 모양의 ANN을 만들 수 있지만 그러한 ANN이 최소한 글쎄, 아니면 작업을 수행하도록 최적화되어 있는지 여부.

에프(엑스)=이자형엑스


2
답변 해주셔서 감사합니다! 질문에 관해서는 "For any given model, can I slap together an ANN model to emulate that model, as close as possible, and in a reasonable amount of time?"--나는 그것이 요점이 아니라고 두려워합니다. 요점은 ANN 토폴로지가 너무 일반적이기 때문에 모든 것을 다루는 것 같고 최적화 전략은 ANN이 아닌 것이 무엇인지 결정할 수없는 것 같습니다. 따라서 ANN을 정의하는 질문은 무엇입니까? 그렇지 않으면 모든 방식이 ANN이 다른 용어로 표현되기 때문입니다.
Firebug

1
"A vanilla neural network can emulate a decision tree, by using heaviside step-activations. The problem is that such unit activations have zero gradient, so normal gradient descent won't work. You might say, "no problem, just use a modified form of gradient descent." However, that's still not enough. [...]"우리가 주장 할 수 있듯이, 최적화는 ANN을 구성하는 요소의 정의에 결정적인 요소가 아닙니다. 모든 의사 결정 트리를 신경망으로 작성할 수 있다면 (그리고 그렇게 할 수 있다면) DT는 NN이라고 할 수 있지만 대화는 사실이 아닙니다.
Firebug

"If you want a basic definition of an ANN, you might say that it's a directed-graphical-model, where inputs and outputs are processed at each node via an activation function, and most of the time gradient descent is used to train it. So the question really becomes: what models out there can be expressed as graphical models?"-이것에 동의합니다. 그런 다음 "Neural Network"는 가장 일반적인 모델 클래스로 해석 될 수 있으며, "그래프 모델"보다 덜 일반적 일 수 있습니다. 이는 무 방향 및 직접 그래프 모델의 수퍼 세트입니다. 아마도 당신은 이것에 대해 더 자세히 설명 할 수있을 것입니다;)
Firebug

2

아마도 ANN에 대한보다 정확한 이름은 "차별 가능한 네트워크", 즉 경사 하강 또는 그 변형을 사용하여 최적화 할 수있는 복잡한 매개 변수화 된 기능 일 것입니다. 이것은 차별화를 강조하는 매우 일반적인 정의이지만 주요 아이디어, 적합한 작업, 기본 수학 프레임 워크 등에 대해서는 아무 것도 말하지 않습니다.

차별화는 특성이며 필수는 아닙니다. 예를 들어, 경사 하강을 사용하여 SVM을 학습 할 수 있으므로 신경 / 차별 가능한 네트워크의 속성을 보여 주지만 주요 아이디어는 하이퍼 플레인을 사용한 데이터 분리에 있습니다. 변형 자동 인코더는 인코더 및 디코더에 MLP를 사용하지만 최적화하는 기능은 베이지안 통계 등에서 비롯됩니다.

신경망이라고도하지만 학습에 GD를 사용하지 않는 몇 가지 모델도 있습니다. 좋은 예는 RBM입니다. 내 생각에 "신경망"이라는 레이블은 대부분 역사적 이유로 붙어 있습니다. 결국 RBM의 제작자는 Geoffrey Hinton이고 힌튼은 신경망을 가진 사람입니다. 그러나 모델을 분석하면 RBM의 구조가 Markov net 인 것을 알 수 있습니다. 에너지 기반 비용 함수는 20 세기 초의 통계 물리학에서 나 왔으며 MCMC / Gibbs 샘플링은 신경망과 병렬로 완전히 독립적으로 개발되었습니다 .


2
그라디언트 기반 학습은 확실히 ANN의 성공에 중요한 역할을했습니다. 그러나 일부 ANN이 차별화되지 않기 때문에 차별화가 정의에 필수적인 것으로 보지 않습니다. 예를 들어, 최초의 ANN (McCulloch-Pitts 모델)은 이진 임계 값 단위를 사용했습니다. 현재 연구 주제는 스파이크 네트와 같은 구별 할 수없는 ANN에서 학습을 수행하는 방법입니다. 또는, 구별 할 수있는 전형적인 ANN으로 시작한 다음, 구별 할 수없는 손실 함수를 최소화하고 싶다고 선언하십시오. 더 이상 ANN이 아니십니까?
user20160

이것이 바로 피드 포워드, 재귀, 재귀, 회선 네트워크, 자동 인코더, VAE, GAN,주의 및 우리가 일반적으로 "신경 네트워크"라고 부르는 다른 많은 모델을 다루는 대체 정의를 제안한 이유입니다. 또는 PGM에 대한 광범위한 샘플링. 2018 년 현재 이러한 접근 방식은 실제로 다릅니다. 다른 최적화 방법, 다른 라이브러리 등을 사용합니다. (CNN 또는 RNN과 달리 실제로 스파이크 네트에 대해 "신경망"보다 더 나은 이름을 생각할 수는 없지만 실제로는 인간을 시뮬레이션합니다. 뇌).
ffriend

1

신경망을 정의하는 데 도움이되는 몇 가지 사항을 가정하려고 할 수 있습니다.

  • 조정 가능한 매개 변수가있는 계산 그래프.
  • 상기 파라미터는 데이터 (실제 또는 시뮬레이션)에 맞게 조정될 수있다.
  • 최적화 될 목적 함수는 내재적으로 또는 명시 적으로 관련됩니다. 전역 또는 로컬 매개 변수 일 수 있습니다.

나는 이것이 오늘날 일반적으로 사용되는 모든 신경망과 일부 난해한 네트워크를 포함한다고 확신합니다.

그래디언트 기반 최적화를 적용하면 진화 된 네트워크는 신경망이되지 않습니다.

뉴런 / 노드 또는 레이어 (오늘날 일부 신경망은 이러한 용어로 거의 설명되지 않음)는 언급하지 않지만, 우리는이를 통합하여 조금 더 제한적이라고 생각합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.