인공 신경망의 이론적 결과


13

Coursera의 기계 학습 과정에서 인공 신경망을 방금 다루었 고 그 뒤에 더 많은 이론을 알고 싶습니다. 나는 그들이 생물학을 모방 한 동기가 다소 불만족 스럽다는 것을 안다.

표면에서 각 수준에서 공변량을 선형 조합으로 대체하는 것으로 보입니다. 반복적으로 수행함으로써 비선형 모델 피팅을 허용합니다. 이것은 왜 신경망이 때때로 비선형 모델에 적합하기를 선호하는지에 대한 의문을 일으킨다.

좀 더 일반적으로, 인공 신경망이 베이지안 프레임 워크에 어떻게 적용되는지 알고 싶습니다. ET Jaynes의 저서 "확률 이론 : 과학의 논리"에 자세히 설명되어 있습니다. 또는 간단히 말해서 인공 신경망이 작동 할 때 왜 작동합니까? 물론, 그들이 성공적으로 예측한다는 사실은 그들이 앞서 언급 한 틀을 따른다는 것을 암시합니다.

답변:


16

다음은 ET Jaynes의 " 미래를 바라본 미래 " 의 인용문입니다 .

새로운 Adhockeries

최근 몇 년 동안 연결된 이론적 원리에 호소하지 않고 직관적 인 장치를 발명하는 정통 습관이 새로운 문제로 확장되어 처음에는 여러 가지 새로운 과학 분야가 만들어졌습니다. 그러나 그들 모두는 불완전한 정보에 대한 추론에 관심이있다. 그리고 우리는 논리로서의 확률 이론이 그러한 모든 문제를 다루는 일반적인 수단이라는 이론을 확립했다고 믿는다 . 우리는 세 가지 예를 주목합니다.

퍼지 세트는 분명히 베이지안 추론 훈련을받은 모든 사람에게 베이지안 사전 확률에 대한 대략적인 근사치입니다. 그들은 실무자들이 자연에 존재해야하지만 "정의되지 않은"무작위성이라는 관점에서 확률을 계속 생각하기 때문에 만들어졌다. 확률 이론은 이러한 문제에 적용 할 수 없다고 결론지었습니다. 불완전한 정보를 지정하는 일반적인 방법으로 확률을 인식하자마자 퍼지 세트를 도입하는 이유는 사라집니다.

마찬가지로 인공 지능 (AI)의 대부분은 오래된 정통 통계와 마찬가지로 불완전한 정보를 근거로 추론하기위한 직관적 인 장치의 모음으로 베이지안 방법에 근사하고 일부 제한된 등급의 문제에서 사용할 수 있습니다. 그러나 우리가 그것을 그 계급 밖의 문제에 적용하려고 할 때 터무니없는 결론을 내린다. 다시 한 번, 실무자들은 정보가 불완전한 정보가 아니라 물리적 인 "무작위"를 나타내는 것으로 계속 생각하기 때문에이 문제에 갇히게됩니다. 베이지안 추론에서 이러한 모든 결과는 제한된 등급의 문제에 제한없이 자동으로 (사소하게) 포함됩니다.

위대한 새로운 발전은 신경망 (Neural Nets)으로, 인간의 두뇌처럼 적응할 수있는 새롭고 훌륭한 특성을 가진 알고리즘 시스템을 의미합니다. 따라서 과거의 오류를 통해 배우고 자동으로 수정할 수 있습니다. . 실제로 우리는 신경망이 많은 응용 분야에서 실제로 매우 유용하다는 사실에 놀라지 않습니다. 퍼지 세트 또는 AI보다 더 그렇습니다. 그러나 현재 신경망에는 두 가지 실질적인 단점이 있습니다. (a) 그들은 현재 입력과 과거 훈련 정보에 의해 결정된 결과를 산출한다. 이 결과는 실제로 추정치입니다현재의 모든 정보를 바탕으로 올바른 대응에 대한 정확성을 나타내지는 못하므로 목표에 얼마나 가까운 지 (즉, 더 많은 훈련이 필요한지) 알려주지 않습니다. (b) 비선형 반응이 요구 될 때, 내부에 저장된 표준 "시그 모이 드"비선형 함수에 호소하며, 다양한 증폭과 선형 혼합으로 어느 정도 참 비선형 함수에 근접하도록 만들 수 있습니다. (참고 : 강조 광산.)

그러나 우리는 (1) 적응적인 절차는 불완전한 정보를 고려하는 수단이다. (2) 베이 즈 정리는 모든 적응 절차의 어머니이다. 새로운 정보를 고려하기 위해 지식의 상태를 업데이트 하는 일반적인 규칙; (3) 이러한 문제들이 베이지안 용어로 공식화 될 때, 단일 계산으로 자동으로 최상의 추정치와 정확도가 산출됩니다. (4) 비선형 성이 요구되는 경우, 베이 즈 정리는 다른 임시 장치에 의해 근사치를 구성하는 대신 문제에 의해 요구되는 정확한 비선형 함수를 자동으로 생성합니다 .

다시 말해, 우리는 이것이 전혀 새로운 분야가 아니라고 주장합니다. 거짓 시작 만. 표준 베이지안 처방으로 이러한 모든 문제를 공식화하면 개선 된 형태로 모든 유용한 결과가 자동으로 나타납니다. 사람들이 이것을 이해하는데 어려움을 겪고있는 것은 추상 수학과 현실 세계 사이의 관계를 개념화하는 데 실패한 예이다. 우리는 확률이 현실을 묘사하지 않고 현실에 대한 우리의 정보만을 묘사한다는 것을 인식하자마자, 게이트는 그 정보로부터 추론의 문제에 대한 최적의 해결책을 열 수 있습니다.

몇 가지 의견 :

  1. 포인트 (a)는 80 년대 후반과 90 년대 초에 시작된 베이지안 신경망의 발전을 무시한다 (그러나 Jaynes의 논문은 1993 년에 작성되었다는 것을 주목하라). 이 게시물을 살펴보십시오 . 또한 Yarin Gal의 아름다운 박사 학위 논문을 읽고 Zoubin Ghahramani의 훌륭한 프레젠테이션 을 시청하십시오 .

  2. 포인트 (b)가 어떻게 "단점"이 될 수 있는지 모르겠습니다. 사실, 이것이 신경망이 왜 많은 종류의 기능에 근접 할 수 있는지의 본질입니다. 최근의 성공적인 아키텍처는 내부 계층에서 S 자형에서 ReLU 활성화로 이동하여 "광도"보다 "깊이"를 선호합니다. 근사 정리는 최근 ReLU net에 대해 입증 되었습니다 .


2
+1 정답에 대한 정확한 참조를 찾을 수있는 곳을 정확히 아는 것보다 더 만족스러운 것은 없습니다.
Sycorax는

5
Ad Hoc 장치가 여러 상황에서 작동한다는 것을 보여 주었을 때, 베이지안 프레임 워크에 단순히 적합하다는 것을 보여 주거나 반증하는 것이 생산적 일 수 있습니다. 따라서 Adhockeries에 대한 심층적 인 이해를 얻습니다. 일. 이것은 내가에 관심이 작품의 일종이다.
톰 Artiom Fiodorov

1

우선 비선형 함수를 얻기 위해 선형 함수를 서로 쌓지 않습니다. NN이 그런 식으로 작동하지 않는 분명한 이유가 있습니다. 선형 함수를 서로 스태킹하면 선형 함수가 다시 생성됩니다.

NN을 비선형으로 만드는 것은 선형 함수 뒤에 오는 활성화 함수 입니다! 그러나 원칙적으로 당신은 맞습니다 : 우리는 단순히 많은 로지스틱 회귀 (선형이 아니라!)를 서로 쌓아 놓고 ... tadaa : 우리는 좋은 것을 얻습니다 ... 그게 공평합니까? (이론적 관점에서 보면) 실제로 공평하다는 것이 밝혀졌습니다. 더 나쁜 것은 : Stone-Weierstrass의 유명하고 잘 알려진 정리를 사용하여 우리는 단지 하나의 숨겨진 레이어와 최종 노드에서 출력 기능이없는 신경망이 모든 연속 함수 를 근사화하기에 충분하다는 것을 증명합니다 (그리고 연속 함수는 추악 할 수 있음을 믿습니다) 짐승, "악마 계단"을 참조하십시오 : https://en.wikipedia.org/wiki/Cantor_distribution[a,b]x↦=b+a1ϕ1(x)+...+alϕl(x)l

그렇다면 왜 NN을 사용합니까? 그 이유는 위의 SW 정리가 단지 충분히 큰 층 크기를 보장하여 우리가 (희망적으로 연속적인) 목표 함수에 접근 할 수 있기 때문입니다. 그러나 필요한 레이어 크기가 너무 커서 컴퓨터가 해당 크기의 무게 행렬을 처리 할 수 ​​없었습니다. 숨겨진 계층이 더 많은 NN은 '정확도'와 계산 가능성 사이에서 좋은 절충안 인 것 같습니다. 나는 단일 숨겨진 레이어의 크기를 늘리는 것과 비교하여 더 숨겨진 레이어를 넣을 때 NN의 expresiveness가 증가하는 '얼마나 많은'방향을 가리키는 이론적 결과를 알지 못하지만 웹에는 일부 리소스가있을 수 있습니다 ...

깊은 NN을 진정으로 이해할 수 있습니까? 질문 예 : 왜 NN이이 사례를 TRUE로 정확하게 예측하고 다른 유사한 사례를 FALSE로 예측합니까? 이 고객이 다른 고객보다 더 가치있는 이유는 무엇입니까? 나는 정말로 그렇게 믿지 않습니다. 더 이상 합리적으로 잘 설명 할 수없는 모델의 복잡함이 있습니다. 나는 이것이 여전히 활발한 연구 분야라고 들었지만, 어떤 자원도 모릅니다 ...

NN이 모든 모델에서 고유 한 이유는 무엇입니까? 요즘 NN을 많이 사용하는 진정한 이유는 다음 두 가지 이유 때문입니다.

  1. 그들은 자연적인 '스트리밍'속성이 있습니다.
  2. 우리는 여러 방향으로 그들을 최대로 포주 할 수 있습니다.

TfTTT등)은이 속성을 기반으로합니다. 사람들은이 스트리밍 속성을 다른 모델 (예 : 그라디언트 부스팅)에 주입하려고 시도했지만 자연스럽게 나오지 않으며 NN 설정만큼 계산 비용이 저렴하지 않습니다.

나는 사람들이 가장 이상한 일을하도록 NN을 훈련 시켰지만 원칙적으로 그들은 같은 프레임 워크를 사용했다. 즉, 부드러운 기능을 서로 스태킹 한 다음 컴퓨터 (예 : PyTorch / Tensorflow)가 컴퓨터와 같은 더러운 수학을하게한다. 손실 함수의 미분은 가중치를 사용합니다. 한 가지 예는 이 논문입니다사람들이 RL 접근 방식을 사용하고 메모리 스택에서 작동하는 방법을 가르쳐서 화학 물질의 복잡한 언어를 배우기 위해 NN의 아키텍처를 포주했습니다 (!). 그래디언트 부스팅을 사용하여 시도하십시오 ;-) 그렇게 해야하는 이유는 화학 물질의 언어가 최소한 괄호 언어만큼 '학습하기가 어렵 기'때문입니다 (즉, 모든 여는 괄호는 단어에서 나중에 닫는 언어가 있습니다) )는 분자를 설명하기 위해 사람들이 사용하는 SMILES 언어에 '('및 ')'기호가 포함되어 있기 때문입니다. 이론적 인 컴퓨터 과학 (Chomsky 계층 구조)에서이 언어를 일반적인 오토마타로 설명 할 수는 없지만 푸시 다운 오토마타 (즉, 스택 메모리가있는 오토마타)가 필요하다는 것을 알고 있습니다. 그것은 NN에이 이상한 것을 가르치는 동기였습니다.


-1

"작동 할 때 왜 작동합니까?"

n

따라서 모든 머신 러닝은 유사합니다.

기계 학습은 연금술과 비슷합니다. 수수께끼의 요리법이 많이 있으며, 하나를 적용하면 금을 얻을 수 있습니다. 그렇지 않다면 다른 레시피를 적용하십시오.

적어도 내가 아는 간행물에는 묻지 않은 사람이 아무도 없습니다.

이 외에도 통계 학습 이론이 있습니다. 통계 학습 이론은 훈련 세트의 크기가 무한대로 진행된다고 가정합니다. 내가 아는 대부분의 결과는 "특정 조건 하에서 충분한 훈련 세트를 보유한 경우이 절차를 사용하여 최대한 좋은 결과를 얻을 수 있습니다"라는 형식을 갖습니다. "충분히 큰"것의 추정치는 상상을 초월합니다.

물론 문제는 훈련 세트 크기가 무한대로 될뿐만 아니라 어디로도 가지 않는다는 것입니다.

따라서 (1)이 질문을하고 (2) 가능한 모든 기계 학습 알고리즘에 대한 질문에 답하고 (3)이 질문에 답할 수있는 수학적 장치를 개발해야 할 때입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.