의견에 썼 듯이이 질문은 나에게 너무 광범위 해 보이지만 답변을 시도 할 것입니다. 일부 경계를 설정하기 위해 대부분의 ML에 기초한 약간의 수학으로 시작한 다음 DL의 최근 결과에 집중합니다.
바이어스 분산 트레이드 오프는 우리가 그것을 언급하지 않고 시작할 수 있도록, ML에 등 수많은 책, 과정, MOOCs, 블로그, 트윗에 언급되어있다 :
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
여기 증거 : https://web.stanford.edu/~hastie/ElemStatLearn/
가우스 - 마르코프 정리 (예, 선형 회귀는 기계 학습의 중요한 부분 남아, 더 무슨 상관 없음 IT와 거래) 선형 모델은 사실과 오류 용어에 대한 몇 가지 가정이 OLS 유효 할 때 최소를 가지고 관계를 설명 선형 모델 의 편향되지 않은 선형 추정기 중 제곱 오차 (위의 식에서 만)를 의미합니다 . 따라서 OLS보다 더 나은 평균 제곱 오차를 가지며 따라서 더 나은 예상 예측 오차를 갖는 바이어스 (또는 비선형 추정기)를 갖는 선형 추정기가있을 수 있습니다. 그리고 이것은 ML의 주력 인 모든 정규화 무기고 (리지 회귀, LASSO, 무게 감소 등)로 향합니다. 여기에 (그리고 수많은 다른 책들에) 증거가 있습니다 :
Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
의견에서 카를로스시 넬리 (Carlos Cinelli)가 지적한 바와 같이 정규화 접근법의 폭발과 관련이 있고, 배우는 것이 훨씬 더 재미 있다면 James-Stein 정리가있다 . 독립적이고 동일한 분산을 고려 하지만 평균 가우스 랜덤 변수는 동일 하지 않습니다 .n
Xi|μi∼N(θi,σ2),i=1,…,n
다시 말해, 성분 가우스 랜덤 벡터 입니다. 우리는 하나의 샘플이 에서 우리가 추정 할 . MLE (및 UMVUE) 추정기는 입니다. James-Stein 추정기를 고려하십시오n−X∼N(θ,σ2I)xXθθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
분명한 경우 , 수축 제로 향해 MLE 추정치. 제임스 - 스타 정리 위한한다고 , 엄격 지배 , 즉, 그것이 갖는 낮은 MSE를 . Pheraps 놀랍게도, 우리는 다른 일정한 방향으로 수축하더라도 , 여전히 지배 . 부터(n−2)σ2≤||x||2θ^JS n≥4θ^JS θ^MLE∀ θc≠0θ^JSθ^MLEXi독립적 인 경우 스페인에서 생산 된 사과 수의 샘플을 포함하여 관련이없는 사람의 신장을 추정하려고 할 때 평균적으로 우리의 추정치 를 향상시킬 수있는 것이 이상하게 보일 수 있습니다 . 여기서 중요한 점은 "평균"입니다. 모수 벡터의 모든 성분을 동시에 추정하기위한 평균 제곱 오차는 작지만 하나 이상의 성분에 대한 제곱 오차는 더 클 수 있으며 실제로는 종종 "극단적 인"관찰이 있습니다.
실제로 단 변량 추정 사례에 대한 "최적의"추정 기인 MLE가 다변량 추정에 영향을 미쳤으며, 당시 충격을 받았으며 ML 용어에서 정규화로 더 잘 알려진 수축에 큰 관심을 가져 왔다는 것을 알았습니다. 혼합 모델과 "차용 강도"의 개념과의 유사점에 주목할 수 있습니다.
수축에 대한 통일 된 견해 : Stein의 역설, 능선 회귀 및 혼합 모형의 임의 효과 간의 관계 (있는 경우)는 무엇입니까?
참조 : James, W., Stein, C., 2 차 손실 추정 . 수학 통계 및 확률에 관한 제 4 회 버클리 심포지엄의 절차, 제 1 권 : 통계 이론에 대한 공헌, 361--379, 캘리포니아 대학교 프레스, 캘리포니아 버클리
주성분 분석 차원 감소의 중요한 주제의 핵심이며, 그것은을 기반으로 특이 값 분해 : 각각 실수 행렬 (정리가 쉽게 복잡한 매트릭스에 일반화 있지만) 우리가 쓸 수 있습니다N×pX
X=UDVT
여기서 , 크기 는 직교하고, 는 음이 아닌 대각선 요소를 갖는 대각 행렬이고 , 크기 는 다시 직교한다. 이를 계산하는 방법에 대한 증거 및 알고리즘은 Golub, G. 및 Van Loan, C. (1983), Matrix calculations , John Hopkins University press, Baltimore를 참조하십시오.UN×pDp×pUp×p
머서의 정리 는 얇은 판 스플라인, 서포트 벡터 머신, 가우시안 랜덤 프로세스의 Kriging 추정 등 다양한 ML 방법에 대한 기초석입니다. 기본적으로 소위 커널 트릭 의 두 가지 이론 중 하나입니다 . 하자 symmmetric 연속 함수 또는 커널 될. 가 양의 반 정밀도 인 경우 , 음이 아닌 고유 값에 해당하는 고유 함수의 표준을 허용합니다.K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
ML 이론에 대한이 정리의 중요성은 가우스 프로세스의 Rasmussen & Williams 텍스트 와 같이 유명한 텍스트에서 얻을 수있는 참조 수에 의해 입증됩니다 .
참조 : J. Mercer, 포지티브 및 네거티브 유형의 함수 및 적분 방정식 이론과의 연관성. 런던 왕립 학회의 철학적 거래. 시리즈 A, 수학 또는 물리적 특성의 논문을 포함, 209 : 415-446, 1909
Konrad Jörgens, Linear Integral Operators , Pitman, Boston, 1982 년 에도 더 간단한 프레젠테이션이 있습니다 .
머서의 정리와 함께 커널 트릭의 이론적 토대를 제시하는 다른 정리는 대표 정리 입니다. 샘플 공간 및 대칭 양의 반정의 커널 이 있다고 가정합니다 . 또한 를 와 관련된 RKHS 라고하자 . 마지막으로 훈련 샘플로 사용하십시오. 정리는 모든 함수 에서 의 고유 함수에 대한 무한한 표현을 인정 한다고 말합니다.XK:X×X→RHKKS={xi,yi}ni=1f∈HKK머서의 정리로 인해, 정규화 된 위험을 최소화하는 것은 항상 훈련 지점 에서 평가 된 커널에 의해 형성된 기초에 유한 한 표현을가집니다.n
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(정리가 마지막 평등이다). 참고 문헌 : Wahba, G. 1990, 관측 데이터 스플라인 모델 , SIAM, 필라델피아.
보편적 근사 이론은 이미 사용자 토비아스 빈디 슈 인용하고 기능 분석에보다가 첫 눈에 그렇게 보이지 않을 수도하더라도, 훨씬 덜 관련 기계 학습하는 것입니다되었습니다. 문제는 정리에서 그러한 네트워크가 존재한다고 말하는 것 뿐이지 만 다음과 같습니다.
- 히든 레이어 의 크기 과 대상 함수 의 복잡성 측정치 예 : 총 변형 사이에는 상관 관계가 없습니다 . 만약 하고, 고정 된 에러 필요한 growed 지수와 후 숨겨진 단일 층 신경 네트워크는 쓸모가 없습니다.Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- 네트워크 가 학습 가능한지 여부는 말하지 않습니다 . 다시 말해 , 와 이 주어지면 , 크기 NN은 와 하이퍼 큐브에서 필요한 공차로 근사 한다는 것을 알고 있습니다. 그런 다음 크기의 훈련 세트를 사용하여 과 같은 예를 들어 백 소품에 관해서 및 학습 과정을 우리는 증가하는 것이 어떤 보장해야합니까 우리가 복구 할 수 ?F(x)fϵNfMMF
- 마지막으로, 그리고 더 나쁜 것은 신경망의 예측 오류에 대해 아무 말도하지 않습니다. 우리가 실제로 관심을 갖는 것은 예측 크기의 추정치이며, 최소한 크기의 모든 훈련 세트에 대해 평균화 됩니다. 정리는이 점에서 도움이되지 않습니다.M
이 정리의 Hornik 버전에서 작은 문제는 ReLU 활성화 기능을 유지하지 않는다는 것입니다. 그러나 Bartlett은이 격차를 다루는 확장 버전을 입증했습니다.
지금까지 내가 생각한 모든 정리는 누구에게나 잘 알려진 것 같습니다. 이제 재미있는 것들을위한 시간입니다 :-) 몇 가지 딥 러닝 이론을 보자 :
가정 :
- 깊은 신경망 (고정 대 , 상기 정규화 손실의 출력과 신경망의 입력에 연관시키는 함수이다) 모두 합산되어 양 같은 정도의 균일 한 기능Φ(X,W)WΦW(X)Θ(W)
- 손실 함수 는 컴팩트 한 세트 에서 볼록하고 에서 한 번 미분 가능합니다.L(Y,Φ(X,W)XS
그때:
- 대한 극소 의 서브되도록 (전역 최소 제로 가중치를 갖는다 정리 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- 임계 네트워크 크기를 초과하면 로컬 하강은 모든 초기화에서 항상 최소값으로 수렴됩니다 ( Theorem 2 ).
이것은 매우 흥미 롭습니다. 컨볼 루션 레이어, ReLU, 최대 풀링, 완전히 연결된 ReLU 및 선형 레이어로만 구성된 CNN은 양의 균질 기능이지만, 시그 모이 드 활성화 기능을 포함하면 더 이상 사실이 아니므로 더 우수하지는 않습니다. 시그 모이 드와 관련하여 ReLU + max pooling의 일부 응용에서 성능. 게다가, 정리는 도 와 같은 정도의 에서 양의 균질 한 경우에만 유지됩니다 . 이제 재미있는 사실은 즉 또는 정규화가 긍정적으로 균일하지만, 동일한 학위가없는 (정도ΘWΦl1l2ΦΦ앞서 언급 한 간단한 CNN 사례에서는 계층 수에 따라 증가합니다. 대신, 배치 정규화 및 경로 -SGD와 같은보다 현대적인 정규화 방법은 와 같은 정도의 양의 균질 정규화 함수에 해당 하며,이 프레임 워크를 정확하게 맞추지 않으면 서 드롭 아웃은 강력한 유사성을 유지합니다. 이것은 높은 정확도를 얻기 위해 및 정규화로는 충분하지 않지만 드롭 아웃 및 배치 정규화와 같은 모든 종류의 악의적 인 트릭을 사용해야 하는 이유를 설명 할 수 있습니다 . 내가 아는 한, 이것은 배치 정규화의 효능에 대한 설명에 가장 가까운 것입니다. 알 라 히미 (Al Rahimi)가 그의 이야기에서 올바르게 지적했듯이 매우 모호합니다.Φl1l2
정리 1에 근거하여 일부 사람들이하는 또 다른 관찰은 왜 죽은 뉴런 의 문제에서도 ReLU가 잘 작동하는지 설명 할 수 있다는 것 입니다. 이 직관에 따르면, 훈련 중에 일부 ReLU 뉴런 "다이 (die)"(제로 활성화로 이동 한 다음 대한 ReLU의 기울기가 이므로 그로부터 결코 회복되지 않음 )는 "버그가 아닌 기능"이라는 사실 ", 만약 우리가 최소에 도달했고 완전한 서브 네트워크가 죽었다면, 우리는 아마도 세계 최저치에 도달했을 것입니다. ( 정리 1 의 가설 하에서)x<0). 뭔가 빠졌을 지 모르지만이 해석은 널리 퍼져 있다고 생각합니다. 우선, 훈련하는 동안 ReLU는 지역 미니 먼에 도달하기 전에 "사라질"수 있습니다. 둘째, ReLU 유닛이 "다이 (die)"인 경우 항상 완전한 서브 네트워크를 통해이를 수행한다는 것이 입증되어야합니다. 이것이 사실 인 유일한 경우는 숨겨진 레이어가 하나만 있는 경우 뿐입니다. 서브 네트워크. 그러나 일반적으로 나는 "죽은 뉴런"을 좋은 것으로 보는 데 매우 신중할 것입니다.
참고 문헌 :
B. Haeffele 및 R. Vidal, 신경망 교육의 글로벌 최적 성 , 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스, 2017.
B. Haeffele 및 R. Vidal. 텐서 인수 분해, 딥 러닝 및 그 밖의 분야에서 글로벌 최적 성 , arXiv, abs / 1506.07540, 2015.
이미지 분류에는 자연적인 이미지에 일반적으로 존재하지만 정보를 포함하지 않는 위치, 자세, 시점, 조명, 표현 등과 같은 다양한 변형에 대해 변하지 않는 (또는 적어도 강건한, 즉 매우 약하게 민감한) 학습 표현이 필요합니다. 분류 작업을 위해. 음성 인식과 동일한 것 : 피치, 음량, 페이스, 악센트의 변화. 등으로 인해 단어의 분류가 변경되어서는 안됩니다. CNN에 사용되는 컨볼 루션, 최대 풀링, 평균 풀링 등과 같은 작업은 정확히이 목표를 가지므로 직관적으로 이러한 응용 프로그램에서 작동 할 것으로 기대합니다. 그러나이 직관을 뒷받침 할 이론이 있습니까? 가 수직 번역 불변 정리이름에도 불구하고 세로 방향으로의 번역과는 아무런 관련이 없지만 기본적으로 다음 레이어에서 학습 한 기능은 레이어 수가 증가함에 따라 점점 더 변하지 않는다고 말합니다. 그러나 이것은 분산 네트워크에는 적용되지만 CNN 에는 적용 되지 않는 오래된 수평 변환 불변이 정리 와 는 반대 입니다. 그러나 정리는 매우 기술적입니다.
- (입력 이미지)가 정사각형 이라고 가정f
- 입력 이미지 를 자체 변환 된 사본 매핑 하는 변환 연산자 필터가 한다고 가정합니다 . 학습 된 컨볼 루션 커널 (필터)은이 가설을 충족시킵니다.TtfTtf
- 네트워크의 모든 필터, 비선형 성 및 풀링은 소위 약한 허용 조건을 만족한다고 가정합니다 . 이는 기본적으로 일종의 약한 규칙 성 및 경계 조건입니다. 이러한 조건은 학습 된 컨볼 루션 커널 (일부 정규화 작업이 각 계층에서 수행되는 한), ReLU, S 자형, tanh 등, 비선형 성 및 평균 풀링 ( 최대 풀링은 아님)에 의해 충족 됩니다. 따라서 실제 CNN 아키텍처의 일부 (전부는 아님)를 다룹니다.
- 최종적으로 각 계층 이 풀링 팩터 갖는다 고 가정하자 . 즉, 풀링이 각 계층에 적용되고 효과적으로 정보를 버린다. 조건 도 약한 정리의 버전으로 충분합니다.nSn>1Sn≥1
입력이 일 때 CNN 의 레이어 출력을 나타냅니다 . 그런 다음 마지막으로Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(삼중 막대는 오류가 아닙니다) 이것은 기본적으로 각 레이어가 점점 더 변하지 않는 기능을 배우고 무한히 깊은 네트워크의 한계에서 완벽하게 변하지 않는 아키텍처를 갖음을 의미합니다. CNN은 한정된 수의 레이어를 가지고 있기 때문에 완벽하게 변하지 않습니다. 이는 실무자들에게 잘 알려진 것입니다.
참조 : T. Wiatowski와 H. Bolcskei, 특징 추출을위한 심층 컨볼 루션 신경망의 수학적 이론 , arXiv : 1512.06293v3 .
결론적으로 Vapnik-Chervonkensis 차원 또는 Rademacher 복잡도에 기반한 Deep Neural Network의 일반화 오류에 대한 수많은 한계는 매개 변수의 수에 따라 (일부 기하 급수적으로) 증가하므로 DNN이 잘 작동하는 이유를 설명 할 수 없습니다. 실제로 매개 변수의 수가 훈련 샘플의 수보다 상당히 큰 경우에도 마찬가지입니다. 사실, VC 이론은 딥 러닝에서 그다지 유용하지 않습니다.
반대로 작년의 일부 결과는 신경망의 깊이와 크기와 무관하지만 훈련 세트의 구조와 입력 공간에만 의존하는 양으로 DNN 분류기의 일반화 오류를 제한했습니다. 학습 과정에 꽤 기술 가정에서, 그리고 훈련 세트와 입력 공간에,하지만 적어도, 다음 확률로 DNN에 거의 가정 (특히, CNNs이 완전히 덮여)와 , 우리가1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
어디:
- GE 는 예상 손실 (모든 가능한 테스트 포인트에서 학습 된 분류기의 평균 손실)과 경험적 손실 (좋은 훈련 세트 오류)의 차이로 정의 된 일반화 오류입니다.
- Ny 는 클래스 수입니다
- m 은 훈련 세트의 크기입니다
- Nγ 은 입력 공간의 구조 및 훈련 세트에서 다른 클래스의 점들 사이의 최소 분리와 관련된 양의 데이터를 포함하는 수 입니다. 참고:
J. Sokolic, R. Giryes, G. Sapiro 및 M. Rodrigues. 변하지 않는 분류기의 일반화 오류 . 2017 년 AISTATS