머신 (딥) 학습의 주요 정리는 무엇입니까?


45

Al Rahimi는 최근 NIPS 2017에서 현재 기계 학습과 연금술을 비교 하여 매우 도발적인 연설을 했습니다. 그의 주장 중 하나는 우리가 이론적 발전으로 되돌아 가서 기초적인 결과를 입증하는 간단한 이론을 가져야한다는 것이다.

그가 말했을 때, ML에 대한 주요 정리를 찾기 시작했지만 주요 결과를 이해하는 좋은 참고 자료를 찾을 수 없었습니다. ML / DL의 현재 주요 수학 이론 (이론)은 무엇이며 어떤 것이 증명됩니까? Vapnik의 작품이 여기 어딘가에있을 것 같아요. 추가로, 주요 이론적 오픈 문제는 무엇입니까?


3
@Tim이 주제stats.stackexchange.com/questions/2379/… ( "통계에서 큰 문제는 무엇입니까?") 와 비슷한 종류입니다 .
whuber

2
조금 넓습니다. 최소한 머신 러닝의 하위 집합을 지정할 수 있습니까? 우리가 딥 러닝 또는 최소한지도 학습으로 제한한다면 답을 시도 할 수 있습니다. 그러나 "기계 학습의 수학"과 같은 것을 고집한다면 답을 쓰려면 시간이 걸립니다.
DeltaIV

3
@whuber의 아날로그 예제에 비추어 볼 때, 특히 CWV로 공개 상태를 유지해야하는데, 특히 델타 V 요청 과 같은 지도 학습 과 같은 ML의 특정 하위 집합으로 제한 될 수있는 경우 더욱 그렇습니다 .
gung-복직 모니카

3
@DeltaIV 제목에 "Deep"이 있습니다.
amoeba는 Reinstate Monica가

4
이 질문을 이해하는 것은 David Donoho가 주최 한 최근 강의 주제였습니다 : stats385.github.io 참조 .
user795305

답변:


43

의견에 썼 듯이이 질문은 나에게 너무 광범위 해 보이지만 답변을 시도 할 것입니다. 일부 경계를 설정하기 위해 대부분의 ML에 기초한 약간의 수학으로 시작한 다음 DL의 최근 결과에 집중합니다.


바이어스 분산 트레이드 오프는 우리가 그것을 언급하지 않고 시작할 수 있도록, ML에 등 수많은 책, 과정, MOOCs, 블로그, 트윗에 언급되어있다 :

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

여기 증거 : https://web.stanford.edu/~hastie/ElemStatLearn/


가우스 - 마르코프 정리 (예, 선형 회귀는 기계 학습의 중요한 부분 남아, 더 무슨 상관 없음 IT와 거래) 선형 모델은 사실과 오류 용어에 대한 몇 가지 가정이 OLS 유효 할 때 최소를 가지고 관계를 설명 선형 모델 의 편향되지 않은 선형 추정기 중 제곱 오차 (위의 식에서 만)를 의미합니다 . 따라서 OLS보다 더 나은 평균 제곱 오차를 가지며 따라서 더 나은 예상 예측 오차를 갖는 바이어스 (또는 비선형 추정기)를 갖는 선형 추정기가있을 수 있습니다. 그리고 이것은 ML의 주력 인 모든 정규화 무기고 (리지 회귀, LASSO, 무게 감소 등)로 향합니다. 여기에 (그리고 수많은 다른 책들에) 증거가 있습니다 : Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

의견에서 카를로스시 넬리 (Carlos Cinelli)가 지적한 바와 같이 정규화 접근법의 폭발과 관련이 있고, 배우는 것이 훨씬 더 재미 있다면 James-Stein 정리가있다 . 독립적이고 동일한 분산을 고려 하지만 평균 가우스 랜덤 변수는 동일 하지 않습니다 .n

Xi|μiN(θi,σ2),i=1,,n

다시 말해, 성분 가우스 랜덤 벡터 입니다. 우리는 하나의 샘플이 에서 우리가 추정 할 . MLE (및 UMVUE) 추정기는 입니다. James-Stein 추정기를 고려하십시오nXN(θ,σ2I)xXθθ^MLE=x

θ^JS=(1(n2)σ2||x||2)x

분명한 경우 , 수축 제로 향해 MLE 추정치. 제임스 - 스타 정리 위한한다고 , 엄격 지배 , 즉, 그것이 갖는 낮은 MSE를 . Pheraps 놀랍게도, 우리는 다른 일정한 방향으로 수축하더라도 , 여전히 지배 . 부터(n2)σ2||x||2θ^JS n4θ^JS θ^MLE θc0θ^JSθ^MLEXi독립적 인 경우 스페인에서 생산 된 사과 수의 샘플을 포함하여 관련이없는 사람의 신장을 추정하려고 할 때 평균적으로 우리의 추정치 향상시킬 수있는 것이 이상하게 보일 수 있습니다 . 여기서 중요한 점은 "평균"입니다. 모수 벡터의 모든 성분을 동시에 추정하기위한 평균 제곱 오차는 작지만 하나 이상의 성분에 대한 제곱 오차는 더 클 수 있으며 실제로는 종종 "극단적 인"관찰이 있습니다.

실제로 단 변량 추정 사례에 대한 "최적의"추정 기인 MLE가 다변량 추정에 영향을 미쳤으며, 당시 충격을 받았으며 ML 용어에서 정규화로 더 잘 알려진 수축에 큰 관심을 가져 왔다는 것을 알았습니다. 혼합 모델과 "차용 강도"의 개념과의 유사점에 주목할 수 있습니다.

수축에 대한 통일 된 견해 : Stein의 역설, 능선 회귀 및 혼합 모형의 임의 효과 간의 관계 (있는 경우)는 무엇입니까?

참조 : James, W., Stein, C., 2 차 손실 추정 . 수학 통계 및 확률에 관한 제 4 회 버클리 심포지엄의 절차, 제 1 권 : 통계 이론에 대한 공헌, 361--379, 캘리포니아 대학교 프레스, 캘리포니아 버클리


주성분 분석 차원 감소의 중요한 주제의 핵심이며, 그것은을 기반으로 특이 값 분해 : 각각 실수 행렬 (정리가 쉽게 복잡한 매트릭스에 일반화 있지만) 우리가 쓸 수 있습니다N×pX

X=UDVT

여기서 , 크기 는 직교하고, 는 음이 아닌 대각선 요소를 갖는 대각 행렬이고 , 크기 는 다시 직교한다. 이를 계산하는 방법에 대한 증거 및 알고리즘은 Golub, G. 및 Van Loan, C. (1983), Matrix calculations , John Hopkins University press, Baltimore를 참조하십시오.UN×pDp×pUp×p


머서의 정리 는 얇은 판 스플라인, 서포트 벡터 머신, 가우시안 랜덤 프로세스의 Kriging 추정 등 다양한 ML 방법에 대한 기초석입니다. 기본적으로 소위 커널 트릭 의 두 가지 이론 중 하나입니다 . 하자 symmmetric 연속 함수 또는 커널 될. 가 양의 반 정밀도 인 경우 , 음이 아닌 고유 값에 해당하는 고유 함수의 표준을 허용합니다.K(x,y):[a,b]×[a,b]RK

K(x,y)=i=1γiϕi(x)ϕi(y)

ML 이론에 대한이 정리의 중요성은 가우스 프로세스의 Rasmussen & Williams 텍스트 와 같이 유명한 텍스트에서 얻을 수있는 참조 수에 의해 입증됩니다 .

참조 : J. Mercer, 포지티브 및 네거티브 유형의 함수 및 적분 방정식 이론과의 연관성. 런던 왕립 학회의 철학적 거래. 시리즈 A, 수학 또는 물리적 특성의 논문을 포함, 209 : 415-446, 1909

Konrad Jörgens, Linear Integral Operators , Pitman, Boston, 1982 년 에도 더 간단한 프레젠테이션이 있습니다 .


머서의 정리와 함께 커널 트릭의 이론적 토대를 제시하는 다른 정리는 대표 정리 입니다. 샘플 공간 및 대칭 양의 반정의 커널 이 있다고 가정합니다 . 또한 를 와 관련된 RKHS 라고하자 . 마지막으로 훈련 샘플로 사용하십시오. 정리는 모든 함수 에서 의 고유 함수에 대한 무한한 표현을 인정 한다고 말합니다.XK:X×XRHKKS={xi,yi}i=1nfHKK머서의 정리로 인해, 정규화 된 위험을 최소화하는 것은 항상 훈련 지점 에서 평가 된 커널에 의해 형성된 기초에 유한 한 표현을가집니다.n

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(정리가 마지막 평등이다). 참고 문헌 : Wahba, G. 1990, 관측 데이터 스플라인 모델 , SIAM, 필라델피아.


보편적 근사 이론은 이미 사용자 토비아스 빈디 슈 인용하고 기능 분석에보다가 첫 눈에 그렇게 보이지 않을 수도하더라도, 훨씬 덜 관련 기계 학습하는 것입니다되었습니다. 문제는 정리에서 그러한 네트워크가 존재한다고 말하는 것 뿐이지 만 다음과 같습니다.

  • 히든 레이어 의 크기 과 대상 함수 의 복잡성 측정치 예 : 총 변형 사이에는 상관 관계가 없습니다 . 만약 하고, 고정 된 에러 필요한 growed 지수와 후 숨겨진 단일 층 신경 네트워크는 쓸모가 없습니다.Nf(x)f(x)=sin(ωx):[0,2π][1,1]Nϵω
  • 네트워크 가 학습 가능한지 여부는 말하지 않습니다 . 다시 말해 , 와 이 주어지면 , 크기 NN은 와 하이퍼 큐브에서 필요한 공차로 근사 한다는 것을 알고 있습니다. 그런 다음 크기의 훈련 세트를 사용하여 과 같은 예를 들어 백 소품에 관해서 및 학습 과정을 우리는 증가하는 것이 어떤 보장해야합니까 우리가 복구 할 수 ?F(x)fϵNfMMF
  • 마지막으로, 그리고 더 나쁜 것은 신경망의 예측 오류에 대해 아무 말도하지 않습니다. 우리가 실제로 관심을 갖는 것은 예측 크기의 추정치이며, 최소한 크기의 모든 훈련 세트에 대해 평균화 됩니다. 정리는이 점에서 도움이되지 않습니다.M

이 정리의 Hornik 버전에서 작은 문제는 ReLU 활성화 기능을 유지하지 않는다는 것입니다. 그러나 Bartlett은이 격차를 다루는 확장 버전을 입증했습니다.


지금까지 내가 생각한 모든 정리는 누구에게나 잘 알려진 것 같습니다. 이제 재미있는 것들을위한 시간입니다 :-) 몇 가지 딥 러닝 이론을 보자 :

가정 :

  • 깊은 신경망 (고정 대 , 상기 정규화 손실의 출력과 신경망의 입력에 연관시키는 함수이다) 모두 합산되어 같은 정도의 균일 한 기능Φ(X,W)WΦW(X)Θ(W)
  • 손실 함수 는 컴팩트 한 세트 에서 볼록하고 에서 한 번 미분 가능합니다.L(Y,Φ(X,W)XS

그때:

  • 대한 극소 의 서브되도록 (전역 최소 제로 가중치를 갖는다 정리 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
  • 임계 네트워크 크기를 초과하면 로컬 하강은 모든 초기화에서 항상 최소값으로 수렴됩니다 ( Theorem 2 ).

이것은 매우 흥미 롭습니다. 컨볼 루션 레이어, ReLU, 최대 풀링, 완전히 연결된 ReLU 및 선형 레이어로만 구성된 CNN은 양의 균질 기능이지만, 시그 모이 드 활성화 기능을 포함하면 더 이상 사실이 아니므로 더 우수하지는 않습니다. 시그 모이 드와 관련하여 ReLU + max pooling의 일부 응용에서 성능. 게다가, 정리는 도 와 같은 정도의 에서 양의 균질 한 경우에만 유지됩니다 . 이제 재미있는 사실은 즉 또는 정규화가 긍정적으로 균일하지만, 동일한 학위가없는 (정도ΘWΦl1l2ΦΦ앞서 언급 한 간단한 CNN 사례에서는 계층 수에 따라 증가합니다. 대신, 배치 정규화 및 경로 -SGD와 같은보다 현대적인 정규화 방법은 와 같은 정도의 양의 균질 정규화 함수에 해당 하며,이 프레임 워크를 정확하게 맞추지 않으면 서 드롭 아웃은 강력한 유사성을 유지합니다. 이것은 높은 정확도를 얻기 위해 및 정규화로는 충분하지 않지만 드롭 아웃 및 배치 정규화와 같은 모든 종류의 악의적 인 트릭을 사용해야 하는 이유를 설명 할 수 있습니다 . 내가 아는 한, 이것은 배치 정규화의 효능에 대한 설명에 가장 가까운 것입니다. 알 라 히미 (Al Rahimi)가 그의 이야기에서 올바르게 지적했듯이 매우 모호합니다.Φl1l2

정리 1에 근거하여 일부 사람들이하는 또 다른 관찰은 왜 죽은 뉴런 의 문제에서도 ReLU가 잘 작동하는지 설명 할 수 있다는 것 입니다. 이 직관에 따르면, 훈련 중에 일부 ReLU 뉴런 "다이 (die)"(제로 활성화로 이동 한 다음 대한 ReLU의 기울기가 이므로 그로부터 결코 회복되지 않음 )는 "버그가 아닌 기능"이라는 사실 ", 만약 우리가 최소에 도달했고 완전한 서브 네트워크가 죽었다면, 우리는 아마도 세계 최저치에 도달했을 것입니다. ( 정리 1 의 가설 하에서)x<0). 뭔가 빠졌을 지 모르지만이 해석은 널리 퍼져 있다고 생각합니다. 우선, 훈련하는 동안 ReLU는 지역 미니 먼에 도달하기 전에 "사라질"수 있습니다. 둘째, ReLU 유닛이 "다이 (die)"인 경우 항상 완전한 서브 네트워크를 통해이를 수행한다는 것이 입증되어야합니다. 이것이 사실 인 유일한 경우는 숨겨진 레이어가 하나만 있는 경우 뿐입니다. 서브 네트워크. 그러나 일반적으로 나는 "죽은 뉴런"을 좋은 것으로 보는 데 매우 신중할 것입니다.

참고 문헌 :

B. Haeffele 및 R. Vidal, 신경망 교육의 글로벌 최적 성 , 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스, 2017.

B. Haeffele 및 R. Vidal. 텐서 인수 분해, 딥 러닝 및 그 밖의 분야에서 글로벌 최적 성 , arXiv, abs / 1506.07540, 2015.


이미지 분류에는 자연적인 이미지에 일반적으로 존재하지만 정보를 포함하지 않는 위치, 자세, 시점, 조명, 표현 등과 같은 다양한 변형에 대해 변하지 않는 (또는 적어도 강건한, 즉 매우 약하게 민감한) 학습 표현이 필요합니다. 분류 작업을 위해. 음성 인식과 동일한 것 : 피치, 음량, 페이스, 악센트의 변화. 등으로 인해 단어의 분류가 변경되어서는 안됩니다. CNN에 사용되는 컨볼 루션, 최대 풀링, 평균 풀링 등과 같은 작업은 정확히이 목표를 가지므로 직관적으로 이러한 응용 프로그램에서 작동 할 것으로 기대합니다. 그러나이 직관을 뒷받침 할 이론이 있습니까? 가 수직 번역 불변 정리이름에도 불구하고 세로 방향으로의 번역과는 아무런 관련이 없지만 기본적으로 다음 레이어에서 학습 한 기능은 레이어 수가 증가함에 따라 점점 더 변하지 않는다고 말합니다. 그러나 이것은 분산 네트워크에는 적용되지만 CNN 에는 적용 되지 않는 오래된 수평 변환 불변이 정리 와 는 반대 입니다. 그러나 정리는 매우 기술적입니다.

  • (입력 이미지)가 정사각형 이라고 가정f
  • 입력 이미지 를 자체 변환 된 사본 매핑 하는 변환 연산자 필터가 한다고 가정합니다 . 학습 된 컨볼 루션 커널 (필터)은이 가설을 충족시킵니다.TtfTtf
  • 네트워크의 모든 필터, 비선형 성 및 풀링은 소위 약한 허용 조건을 만족한다고 가정합니다 . 이는 기본적으로 일종의 약한 규칙 성 및 경계 조건입니다. 이러한 조건은 학습 된 컨볼 루션 커널 (일부 정규화 작업이 각 계층에서 수행되는 한), ReLU, S 자형, tanh 등, 비선형 성 및 평균 풀링 ( 최대 풀링은 아님)에 의해 충족 됩니다. 따라서 실제 CNN 아키텍처의 일부 (전부는 아님)를 다룹니다.
  • 최종적으로 각 계층 이 풀링 팩터 갖는다 고 가정하자 . 즉, 풀링이 각 계층에 적용되고 효과적으로 정보를 버린다. 조건 도 약한 정리의 버전으로 충분합니다.nSn>1Sn1

입력이 일 때 CNN 의 레이어 출력을 나타냅니다 . 그런 다음 마지막으로Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(삼중 막대는 오류가 아닙니다) 이것은 기본적으로 각 레이어가 점점 더 변하지 않는 기능을 배우고 무한히 깊은 네트워크의 한계에서 완벽하게 변하지 않는 아키텍처를 갖음을 의미합니다. CNN은 한정된 수의 레이어를 가지고 있기 때문에 완벽하게 변하지 않습니다. 이는 실무자들에게 잘 알려진 것입니다.

참조 : T. Wiatowski와 H. Bolcskei, 특징 추출을위한 심층 컨볼 루션 신경망의 수학적 이론 , arXiv : 1512.06293v3 .


결론적으로 Vapnik-Chervonkensis 차원 또는 Rademacher 복잡도에 기반한 Deep Neural Network의 일반화 오류에 대한 수많은 한계는 매개 변수의 수에 따라 (일부 기하 급수적으로) 증가하므로 DNN이 잘 작동하는 이유를 설명 할 수 없습니다. 실제로 매개 변수의 수가 훈련 샘플의 수보다 상당히 큰 경우에도 마찬가지입니다. 사실, VC 이론은 딥 러닝에서 그다지 유용하지 않습니다.

반대로 작년의 일부 결과는 신경망의 깊이와 크기와 무관하지만 훈련 세트의 구조와 입력 공간에만 의존하는 양으로 DNN 분류기의 일반화 오류를 제한했습니다. 학습 과정에 꽤 기술 가정에서, 그리고 훈련 세트와 입력 공간에,하지만 적어도, 다음 확률로 DNN에 거의 가정 (특히, CNNs이 완전히 덮여)와 , 우리가1δ

GE2log2NyNγm+2log(1/δ)m

어디:

  • GE 는 예상 손실 (모든 가능한 테스트 포인트에서 학습 된 분류기의 평균 손실)과 경험적 손실 (좋은 훈련 세트 오류)의 차이로 정의 된 일반화 오류입니다.
  • Ny 는 클래스 수입니다
  • m 은 훈련 세트의 크기입니다
  • Nγ 은 입력 공간의 구조 및 훈련 세트에서 다른 클래스의 점들 사이의 최소 분리와 관련된 양의 데이터를 포함하는 수 입니다. 참고:

J. Sokolic, R. Giryes, G. Sapiro 및 M. Rodrigues. 변하지 않는 분류기의 일반화 오류 . 2017 년 AISTATS


2
+1. 큰 대답은, 마지막 부분은 매우 흥미 롭습니다. 첫 번째 부분에서 머서의 정리는 위에서 설명한 SVD와 같습니다.
amoeba는 Reinstate Monica가

1
@amoeba, 당신 말이 맞습니다. 그러나 1) 모든 독자가 당신만큼 수학에 능숙하지는 않지만 SVD, Karhunen-Loeve 확장과 Mercer의 정리 사이의 유사성을 즉시 인식 할 것입니다. 또한 2) 커널 트릭을 "파워"하고 포함하지 않기로 선택한 Functional Analysis의 다른 정리는 Mercer의 정리보다 설명하기 어렵고 이미 토요일에 파열했습니다 .-) 아마도 내일 추가 할 것입니다!
DeltaIV

1
Gauss Markov는 제자리에없는 것 같습니다. ML 커뮤니티에서 BLUE에 관심이있는 사람은 없었습니다.
Carlos Cinelli

2
나는 일반적으로 원래의 (아카 릭) 참조는 일반적으로 지루한 표기법을 가지고 있음에 동의합니다. 머서의 논문은 실제로 그 측면에서 놀랍도록 현대적이며 그로 인해 정확하게 추가했습니다. :) (원래 나는 이것이 매우 좋은 대답이라고 말했다. 이것은
공감

2
나는 머서의 정리를 좋아한다. 제거하지 마라. 그리고 왜 두 링크가 없습니까? See [here] for a modern exposition"원본 용지" 와 같이 smth를 추가 하거나 그 반대로도 추가하십시오 .
amoeba는 Reinstate Monica

11

나는 당신이 주장하는 다음 정리가 통계 학습에서 매우 근본적인 것으로 간주된다고 생각합니다.

정리 (Vapnik 및 Chervonenkis, 1971) 하자 도메인에서 함수의 가설 클래스가 에 과 손실 함수가 될 수 있도록 손실. 그런 다음 다음과 같습니다.HX{0,1}01

  1. H 는 균일 한 수렴 특성을 가지고 있습니다.
  2. H 는 학습 가능한 PAC입니다.
  3. H 는 유한 한 VC 치수를 갖는다.

여기에 양적인 버전으로 제공됩니다.

VN Vapnik 및 AY Chervonenkis : 확률에 대한 사건의 상대적 빈도의 균일 한 수렴. 확률론과 그 응용, 16 (2) : 264–280, 1971.

학습 이론의 다른 결과에 대한 멋진 설명과 함께 위에 공식화 된 버전은 여기에서 볼 수 있습니다 .

Shalev-Shwartz, Shai 및 Shai Ben-David. 머신 러닝 이해 : 이론에서 알고리즘까지. 케임브리지 대학 출판부, 2014.



4

내가 가장 좋아하는 것은 크래프트 불평등입니다.

정리 : 유한 알파벳 대한 설명 방법 경우 코드 단어 길이 는 부등식 .CA={1,,m}LC(1),,LC(2)xA2LC(x)1

이 불평등은 확률 밀도압축 과 관련이 있습니다 . 코드가 주어진 경우 해당 코드로 표시되는 결과의 길이는 코드로 식별 된 모델의 음의 로그 확률입니다.

또한 머신 러닝을위한 무료 점심 정리 이론은 하이퍼 압축이없는 정리라는 형제 자매가 잘 알려져 있지 않으므로 모든 시퀀스를 압축 할 수는 없습니다.


4

나는 그것을 주요 정리 라고 부르지 않을 것이지만, 피드 포워드 신경망의 근사 력을 나타내는 다음의 (때로는 보편적 근사 정리라고도 함) 흥미로운 (그리고 적어도 놀랍게도) 하나라고 생각합니다.

정리 : 하자 상수가와 monotinically 증가하는 연속 함수이다. 연속 함수 및 , 정수 및 다층 퍼셉트론 있으며, 하나의 숨겨진 레이어에는 뉴런이 있고 가 활성화되어 있습니다. 기능을σf:[0,1]mRϵ>0NFNσ

|F(x)f(x)|ϵ
모든 .x[0,1]m

물론 이것은 존재에 대한 진술 이므로 실무자에게 미치는 영향은 무시할 수 있습니다.

증명은 Hornik, Muitilayer Feedforward Network의 근사 능력, Neural Networks 4 (2), 1991,


5
이 정리는 신경망에만 국한되지 않기 때문에 다소 흥미롭지 않습니다. 다른 많은 클래스의 함수는 비슷하고 때로는 더 강한 근사 속성을 공유합니다. 예를 들어 Stone-Weierstrass 정리를 보라. 보다 흥미로운 결과는 일반적인 프레임 워크에서 신경망 회귀의 일관성입니다. 또한 네트의 복잡성과 훈련 샘플의 크기 측면에서 평균 일반화 오차에 대한 경계가 있어야합니다.
Olivier

1
@Olivier : 전적으로 동의합니다. 그러나이 정리가 신경망에만 전념하는 것은 아니지만, 나는 여전히 그 진술, 그 강력한 증거, 그리고 그 의미가 흥미로워진다. 예를 들어 위에서 언급 한 속성을 가진 활성화 기능을 사용하는 한 네트워크의 대략적인 기능은 동일합니다 (대략 말하기). 또는 하나의 숨겨진 레이어로 이미 많은 것을 배울 수 있기 때문에 신경망이 과적 합되기 쉽다고 말합니다.
Tobias Windisch

1
정확히 말하지 않습니다. 를 나타낼 수있는 하나의 숨겨진 계층을 가진 신경망 있다고 말하지만 , 예를 들어 이 성장 하는 방식 이나 의 복잡성 정도 (예 : 전체 변동) 에 대해서는 아무 것도 알려주지 않습니다. ). 주어진 데이터에 따라 네트워크의 가중치를 수 있는지 여부는 알려주지 않습니다 . 많은 흥미로운 경우에 은 다중 계층 (딥) 네트워크보다 하나의 숨겨진 계층 네트워크에 대해 기하 급수적으로 더 크다는 것을 알 수 있습니다. 그렇기 때문에 아무도 ImageNet 또는 Kaggle에 숨겨진 계층 네트워크를 사용하지 않습니다. fNmflearnN
델타 IV

@DeltaIV : 이전 의견의 마지막 문장에 오타가 있습니다. "학습"이라는 단어는 실제로 "근사 적"이어야합니다 (그렇지 않으면 "과적 합"에 대한 나의 말은 의미가 없습니다). 힌트 주셔서 감사합니다!
Tobias Windisch

예, 나는 "근사"의 의미로 해석했습니다. 내 요점은 이론적으로 하나의 숨겨진 레이어 NN으로 모든 기능 (바운드 하이퍼 큐브)을 근사 할 수 있다는 것을 알고 있지만 실제로는 많은 경우에 쓸모가 없다는 것입니다. 또 다른 예 : 제곱 지수 커널을 갖는 가우시안 프로세스는 보편적 근사 특성을 갖지만, 일부 문제의 경우 정확한 근사에 필요한 샘플 수가 기하 급수적으로 증가한다는 사실 때문에 다른 회귀 방법을 모두 제거하지는 않았습니다.
DeltaIV

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.