TCS는“왜 신경망이 그렇게 잘 작동합니까?”라는 질문에 어떤 대답을 원하십니까?


52

박사 순수한 수학에 있으며 이론적 CS에 대해 많이 알지 못한다는 것을 인정합니다. 그러나 나는 나의 직업을위한 비 학술적 옵션을 탐구하고 기계 학습에 자신을 소개하기 시작했다.

본질적으로 제 질문은 연구원들이 어떤 종류의 답변을 원합니까? 주제에 대한 간단한 검색에서 찾은 내용은 다음과 같습니다.

  • 간단한 신경망을 구현하는 알고리즘은 매우 간단합니다.
  • 통계 이론과 마찬가지로 SGD 프로세스는 수학적으로 잘 이해됩니다.
  • 보편적 근사 정리는 강력하고 입증되었습니다.
  • 최근의 논문 https://arxiv.org/abs/1608.08225 가 있습니다.이 논문 은 기본적으로 우리가 모델링하려는 함수에 대해 강력한 단순화 가정을 할 수 있기 때문에 보편적 근사치가 실제로 실제로 필요한 것보다 훨씬 많다는 대답을 제공합니다. 신경망.

앞서 언급 한 논문에서 "GOFAI 알고리즘은 분석적으로 완전히 이해되지만 많은 ANN 알고리즘은 경험적으로 만 이해된다"고 언급하고있다. 구현 된 알고리즘에 대한 수렴 이론은 우리가 신경망에 대해 가지고 있다고 생각하는 분석적 이해의 예이므로,이 일반 수준의 진술은 알려진 것과 알려지지 않은 것 또는 "답변으로 간주되는 것"에 대해 많은 것을 말해주지 않습니다. "

저자는 주어진 다항식을 근사화하는 데 필요한 신경망의 크기에 대한 유효 범위와 같은 질문은 개방적이고 흥미 롭다는 결론을 내립니다. 우리가 신경망을 "이해했다"고 대답하기 위해 수학적으로 특정한 분석 질문의 다른 예는 무엇입니까? 더 순수한 수학 언어로 대답 할 수있는 질문이 있습니까?

(저는이 논문에서 물리학을 사용하기 때문에 표현 이론에서 방법을 구체적으로 생각하고 있습니다. --- 이기적으로는 그것이 내 연구 분야이기 때문에. 조합론 / 그래프 이론, 대수 기하학과 같은 영역도 상상할 수 있습니다. 및 실행 가능한 도구를 제공하는 토폴로지)


3
GOFAI는 정말 잘 이해되고 있습니까? 많은 GOFAI가 고전적인 NP- 완전 문제인 SAT 해석으로 넘어가는 것 같습니다. 현대의 SAT 솔버는 현존하는 이론에 따라서는 안되지만 실용성이 뛰어납니다. 왜?
Martin Berger

이 분야에는 실제로 딥 러닝과 딥 러닝 스터디 / 변경 / 이력이 있으며 해당 분야의 주요 패러다임 전환이 있습니다. 딥 러닝은 지난 반년 안에 시작되었습니다. 간단한 대답은 신경망이 임의의 복잡한 기능을 나타낼 수 있으며 복잡도가 심층 신경망을 통해 매우 고급 수준에 있다는 것입니다. 또 다른 대답은 연구 된 문제, 그리고 심지어는 "일반적인 현실"조차 "특성으로 만들어졌다"고 ANN은 이제 매우 복잡한 특성을 배우는 데 능숙하다는 것입니다.
vzn

사람들이 실제로 "답변"을 찾고 있다고 생각하지 않습니다. 그들은 신경망을 사용하여 문제를 해결하려고 노력하며, 문제가 실제로 해결되면 괜찮습니다. 네트워크가 그 솔루션에 어떻게 도달했는지 아는 것이 여기에 반드시 관심이있는 것은 아닙니다. 그것이 문제를 해결하는 한 검은 색 / 불투명 상자라면 아무도 신경 쓰지 않습니다.
xji

답변:


38

머신 러닝에는 "무료 점심 식사 없음"이론이 많이 있으며, 다른 모든 알고리즘보다 균일하게 더 우수한 마스터 학습 알고리즘이있을 수는 없습니다 (예 : http : //www.no-free- lunch.org/ ). 물론 딥 러닝은 많은 어려움없이 "파손"될 수 있습니다 : http://www.evolvingai.org/fooling

따라서, 효과적으로 효과를 발휘하기 위해서는 학습자가 귀납적 편견 , 즉 데이터에 대한 일부 사전 가정이 필요합니다. 귀납적 편견의 예로는 데이터 희소성 또는 낮은 차원 성 가정이 있거나 분포가 멋지게 인수 분해되거나 큰 마진이있는 등이 있습니다. 다양한 성공적인 학습 알고리즘은 이러한 가정을 활용하여 일반화 보장을 증명합니다. 예를 들어, (선형) SVM은 데이터가 공간에서 잘 분리되어 있으면 잘 작동합니다. 그렇지 않으면-그렇게 많지 않습니다.

딥 러닝의 주요 과제는 귀납적 편견이 무엇인지 이해하는 것입니다. 다시 말해, 유형의 이론을 증명하는 것입니다. 훈련 데이터가 이러한 가정을 만족하면 일반화 성능에 대해 무언가를 보장 할 수 있습니다. (그렇지 않으면 모든 베팅이 해제됩니다.)

2


적대적인 예는 심층 신경망에 고유하지 않습니다. 또한 선형 및 로지스틱 회귀 분석을 위해 쉽게 구성 할 수 있습니다. arxiv.org/pdf/1412.6572.pdf
Lenar Hoyt

1
그러나 선형 및 로지스틱 회귀 분석은 이론적으로 훨씬 잘 이해됩니다.
Aryeh

2
NFL이 모든 기능 의 클래스와 관련이 있지만 실제 문제는 일반적으로 예를 들어 부드러운 기능 또는 더 구체적인 기능으로 제한 되기 때문에 NFL 이론 실제 머신 러닝에서 큰 역할하지 않을 수도 있습니다 . Lin과 Tegmark가 논문에서 고려한 것. 우리가 관심이있는 모든 학습 문제를 다루는 귀납적 편견을 찾는 것이 가능할 수도 있습니다.
Lenar Hoyt

4
그런 다음 먼저 "관심있는 모든 학습 문제"영역을 공식화해야합니다.
Aryeh

1
특히 AI 안전과 관련하여 분명히 가치가있는 것처럼 보입니다. 머신 러닝 알고리즘이 학습해야 할 내용을 확실하게 지정할 수 있어야합니다.
Lenar Hoyt

26

신경망에 대한 이해에는 최적화 경도와 일반화 성능이라는 두 가지 주요 격차가 있습니다.

신경망을 훈련하려면 높은 차원에서 볼록하지 않은 최적화 문제를 해결해야합니다. 현재 훈련 알고리즘은 모두 기울기 하강을 기반으로하며 임계점 (로컬 최소 또는 안장)까지의 수렴 만 보장합니다. 실제로, Anandkumar & Ge 2016은 최근 로컬 최소값을 찾는 것이 NP-hard라는 것을 증명했습니다. 이는 (P! = NP라고 가정 할 때) 오류 표면에 "나쁜"탈출하기 어려운 새들 지점이 있음을 의미합니다.
그러나 이러한 교육 알고리즘은 많은 실제 문제에 대해 경험적으로 효과적이며 그 이유를 모릅니다. Choromanska 등의
이론적 논문이있다 . 2016 년가와구치 2016특정 가정 하에서 지역 최소값은 기본적으로 전체 최소값만큼 우수하지만, 그들이 만든 가정은 다소 비현실적이며 안 장점 문제를 다루지 않습니다.

이해의 또 다른 주요 격차는 일반화 성능입니다. 훈련 중에 보이지 않는 새로운 예에서 모델이 얼마나 잘 수행됩니까? 무한한 수의 훈련 예 (정적 분포에서 샘플링 된 iid)의 한계에서 훈련 오류가 소설 예제의 예상 오차로 수렴한다는 것을 쉽게 알 수 있지만 (세계 최적으로 훈련 할 수 있다면) 무한한 훈련 예제가 없다면 훈련과 일반화 오류 사이의 주어진 차이를 달성하기 위해 몇 개의 예제가 필요한지에 관심이 있습니다. 통계 학습 이론은 이러한 일반화 한계를 연구합니다.
경험적으로, 현대의 대규모 신경망을 훈련하려면 많은 훈련 예제 (전문어를 선호하는 경우 빅 데이터)가 필요하지만 실제로 실현 불가능할 정도로 큰 것은 아닙니다. 그러나 통계 학습 이론 (예 : Gao & Zhou 2014 ) 에서 가장 잘 알려진 범위를 적용 하면 일반적으로이 수가 엄청나게 커집니다. 따라서 이러한 실질적인 문제는 최소한 실제적인 문제로 인해 팽팽하지는 않습니다.
이유 중 하나는 이러한 경계가 데이터 생성 분포에 대해 거의 가정하지 않기 때문에 적대적인 환경에 대한 최악의 성능을 반영하는 반면 "자연적인"환경은 더 "학습 가능한"경향이 있기 때문입니다.
배포에 의존하는 일반화 범위를 작성할 수는 있지만 "자연적인"환경에서 배포를 공식적으로 특성화하는 방법을 모릅니다. 알고리즘 정보 이론 과 같은 접근법 은 여전히 ​​불만족 스럽다.
그러므로 우리는 왜 신경망이 과적 합없이 훈련 될 수 있는지 여전히 알지 못한다.

또한,이 두 가지 주요 이슈는 여전히 이해하기 어려운 방식으로 관련되어있는 것 같습니다. 통계 학습 이론의 일반화 한계는 모델이 훈련 세트에서 전 세계 최적으로 훈련되었다고 가정하지만 실제 환경에서는 안 장점까지 수렴 할 때까지 신경망을 훈련하지 않습니다. 대신 보류 된 유효성 검사 세트 (일반화 오류의 프록시)의 오류가 개선을 멈 추면 훈련을 중단합니다. 이것을 "조기 중지"라고합니다.
어떤 의미에서 세계 최적화의 일반화 오차에 대한 이론적 연구는 전혀 관련이 없을 수있다. 우리는 그것을 효율적으로 찾을 수 없을뿐만 아니라, 가능하더라도 더 나쁘게 수행하기 때문에 원하지 않을 것이다 많은 "최적의"최적 솔루션보다 새로운 사례.
최적화 경도가 신경망의 결함이 아닌 경우 일 수 있지만, 신경망은 최적화하기 어렵 기 때문에 전혀 정확하게 작동 할 수 있습니다.
이러한 모든 관찰은 경험적이며이를 설명하는 좋은 이론은 없습니다. 신경망의 하이퍼 파라미터 (숨겨진 레이어 폭 및 깊이, 학습 속도, 아키텍처 세부 사항 등)를 설정하는 방법을 설명하는 이론도 없습니다. 실무자들은 경험과 많은 시행 착오에 의해 연마 된 직관을 사용하여 효과적인 가치를 도출하는 한편 이론은 우리가보다 체계적인 방식으로 신경망을 설계 할 수있게합니다.


11

@Aryeh의 발언에 추가하기 위해이 질문에 대한 또 다른 견해 : 다른 많은 학습 모델의 경우, 우리는 가설 공간의 "모양"을 알고 있습니다. SVM은 이것의 가장 좋은 예입니다. 찾은 것은 (높은 차원의) 힐버트 공간의 선형 분리기입니다.

일반적으로 신경망의 경우 명확한 설명이나 근사치가 없습니다. 그리고 그러한 설명은 신경망이 데이터에서 정확히 무엇을 발견하는지 이해하는 데 중요합니다.


가설 공간의 "모양"으로 무엇을 부르겠습니까? :) Theorem 2.1 (3 페이지)에 대한 귀하의 질문에 대한 답변이 있습니까 : eccc.weizmann.ac.il/report/2017/098 ? : D
Anirbit

4

정보 병목 현상의 원칙은 심층적 인 네트워크의 성공을 설명하기 위해 제안되었습니다.

Quanta 잡지 의 인용문입니다.

지난 달 베를린 인공 지능 연구원들 사이에서 널리 공유 된 컨퍼런스 컨퍼런스의 유튜브 비디오가 가능한 답을 제시했다. 이 대화에서 히브리 대학교 예루살렘의 컴퓨터 과학자이자 신경 과학자 인 Naftali Tishby는 딥 러닝이 어떻게 작동하는지 설명하는 새로운 이론을 뒷받침하는 증거를 제시했습니다. Tishby는 심층 신경망이 "정보 병목 현상"이라는 절차에 따라 학습한다고 주장합니다.이 정보 병행자는 두 명의 공동 작업자가 1999 년 순수 이론적 용어로 처음 설명했습니다.이 아이디어는 네트워크가 병목 현상을 통해 정보를 제공하고 일반적인 개념과 가장 관련이있는 기능 만 유지합니다.

참고 문헌 :

1- 딥 러닝 및 정보 병목 원리 , Naftali Tishby 및 Noga Zaslavsky

2- 정보 , Ravid Shwartz-Ziv 및 Naftali Tishby 를 통해 심층 신경망의 블랙 박스 열기

3- 컨퍼런스 토크 비디오 : Naftali Tishby 의 딥 러닝 정보 이론


1

심층 신경망 훈련을위한 효율적인 알고리즘을 여전히 찾아야한다고 말합니다. 예, SGD는 실제로 잘 작동하지만 글로벌 최소값으로 수렴하도록 보장하는 더 나은 알고리즘을 찾는 것이 매우 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.