답변:
딥 러닝이 왜 그렇게 효과가 좋습니까? 라는 논문 이 있습니다. .
"그러나 딥 러닝이 왜 그렇게 잘 작동하는지는 아직 완전히 이해되지 않았습니다. 수작업으로 제작되고 분석적으로 완전히 이해되는 GOFAI ("좋은 구식 AI ") 알고리즘과 달리 인공 신경망을 사용하는 많은 알고리즘은 휴리스틱 수준 : 대규모 데이터 세트를 사용하는 특정 교육 프로토콜이 탁월한 성능을 제공한다는 사실을 경험적으로 알 수 있습니다. 이는 인간 두뇌의 상황을 연상시킵니다. 우리는 특정 커리큘럼에 따라 어린이를 훈련하면 기술 – 그러나 우리는 그녀의 두뇌가 어떻게 이것을 달성하는지에 대한 깊은 이해가 부족합니다. "
이것은 매우 사실입니다. 딥 러닝 모델은 스택 형 자동 인코더 및 신경망과 같은 얕은 모델조차 완전히 이해되지 않습니다. 이러한 복잡한 변수 집약적 기능을 위해 최적화 프로세스에 무슨 일이 일어나고 있는지 이해하려는 노력이 있습니다. 그러나 이것은 어려운 작업입니다.
연구원들이 딥 러닝이 얼마나 효과적인지 알아 내기 위해 사용하는 한 가지 방법은 생성 모델을 사용하는 것입니다. 먼저 학습 알고리즘을 학습하고 예제를 생성하도록 요구하면서 체계적으로 학습 알고리즘을 핸디캡합니다. 결과로 생성 된 예제를 관찰하면 알고리즘에서 발생하는 상황을보다 중요한 수준으로 추론 할 수 있습니다. 이것은 뇌의 다른 성분이 무엇인지 이해하기 위해 신경 과학에서 억제제를 사용하는 것과 매우 유사합니다. 예를 들어, 시각 피질이 손상되면 눈이 멀어지기 때문에 시각 피질이 어디에 있는지 알고 있습니다.
아마도 "기본 이론"이 무엇을 의미하는지에 달려 있지만, 딥 러닝에는 엄격한 양적 이론이 부족하지 않으며, 그 반대 주장에도 불구하고 일부는 매우 일반적입니다.
한 가지 좋은 예는 에너지 기반 학습 방법에 대한 해결 방법입니다. 변형 추론 및 자유 에너지에 대한 Neal & Hinton의 연구를 참조하십시오 : http://www.cs.toronto.edu/~fritz/absps/emk.pdf
또한 Yann LeCun 및 동료의 "많은 학습 모델에 대한 일반적인 이론적 프레임 워크"로서 에너지 최소화에 대한이 안내서 : http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf
Scellier와 Bengio의 에너지 기반 모델에 대한 일반적인 프레임 워크 : https://arxiv.org/pdf/1602.05179.pdf
힌튼 & Sejnowski의 초기 작업은 분석적 특정 홉 필드에서 영감을 네트워크 + 자율 학습 알고리즘은 베이 즈 - 최적의 추론에 근접 할 수있는 프로그램도있다 : https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf
이론적 인 신경 과학 깊은 학습을 연결하는 많은 논문은 역 전파의 효과가 생물학적으로 그럴듯한 신경 구조에 달성 할 수 있음을 보여줍니다 다음으로,도 있습니다 https://arxiv.org/pdf/1411.0247.pdf
물론, 많은 논란의 여지가 있지만 논란의 여지가없는 단일 통일 이론은 없지만 거의 모든 분야에 대해서도 마찬가지입니다.
딥 러닝이 잘 발달되어 있기 때문에 위키 백과 인용문은 의심 스럽다 . 실제로 [citation needed]
Wikipedia 페이지에 있습니다.
https://github.com/terryum/awesome-deep-learning-papers를 보십시오 . 링크에는 100 개의 논문이 있지만 여전히 딥 러닝에는 "일반 이론"이 없다고 생각하십니까?
예. 딥 러닝은 매우 복잡한 모델이기 때문에 이해하기 어렵습니다. 그러나 이것이 우리가 이론이 없다는 것을 의미하지는 않습니다.
어쩌면 lime
패키지와 백서 : "왜 당신을 믿어야합니까?": 분류기의 예측을 설명 하면 도움이 될 것입니다. 이 논문은 훨씬 더 간단한 모델을 사용하여 복잡한 모델 (딥 러닝 포함)을 로컬로 근사 할 수 있어야한다고 제안합니다.
딥 러닝 이론에 남아있는 핵심 질문은 데이터 모델보다 더 많은 매개 변수를 가진 거대한 모델이 우리가 사용하는 데이터 세트에 비해 적합하지 않은 이유입니다.
복잡성 측정에 기반한 고전 이론은 실제 신경 네트워크의 동작을 설명하지 않습니다. 예를 들어, VC 차원의 추정치는 빈번한 일반화 범위를 제공합니다. 내가 아는 한, VC 차원에서 가장 엄격한 (상한 및 하한) 경계는 [1]에 나와 있으며 네트워크의 가중치 수의 순서입니다. 이 최악의 복잡한 상황은 CIFAR 또는 MNIST에 대한 대규모의 리즈 넷 일반화 방법을 설명 할 수 없습니다.
최근에, 예를 들어 신경 탄젠트 커널과 관련하여 또는 가중치에 대한 다양한 규범 측정에 의해 신경 네트워크에 대한 일반화를 보장하려는 다른 시도가 있었다. 각각 실제 크기의 네트워크에는 적용되지 않으며 다른 불만족스러운 속성이있는 것으로 밝혀졌습니다 [2].
PAC Bayes 프레임 워크에는 비 공백 경계에 대한 작업이 있습니다 (예 : [3]). 그러나 이러한 설정에는 훈련 된 네트워크에 대한 지식이 필요하므로 기존 PAC 분석과는 다른 풍미가 있습니다.
다른 측면들 :
최적화 : 볼록하지 않은 문제에 대해 기울기 하강에서 '좋은'솔루션을 어떻게 얻습니까? (최근 문헌에는 이에 대한 답변이 있습니다)
해석 성 : 네트워크가 '생각하는 것'을 직관적 인 수준으로 설명 할 수 있습니까? (내 지역이 아님)
(불완전한) 참조 :
기계 학습이 일반적으로 작동하는 이유에 대한 좋은 이론이 없다는 것을 지적하고 싶습니다. VC 경계는 여전히 모델을 가정하지만 현실은 이러한 수학적 이상에 맞지 않습니다. 궁극적으로 응용 프로그램과 관련하여 모든 것이 황제 결과로 귀결됩니다. 인간의 직관적 인 이해와 일치하는 알고리즘을 사용하여 이미지 간의 유사성을 정량화하는 것조차 정말 어렵습니다
어쨌든 NN은 완전히 연결된 형태로는 잘 작동하지 않습니다. 모든 성공적인 네트워크에는 네트워크 아키텍처 (CNN, LSTM 등)에 일종의 정규화 기능이 내장되어 있습니다.