Cybenko의 결과는 아래에 전달하고자하므로 상당히 직관적입니다. 더 까다로운 것은 일반성뿐만 아니라 최소한의 숨겨진 레이어를 목표로한다는 것입니다. Kolmogorov의 결과 (vzn에 의해 언급 됨)는 실제로 더 강력한 보증을 달성하지만 기계 학습과 관련성이 다소 떨어집니다 (특히, 노드가 이질적이므로 표준 신경망을 구축하지 않음). 이 결과는 표면에 한계와 연속 기능을 기록하는 3 페이지에 불과하기 때문에 어려워 보이지만 실제로는 일련의 프랙탈을 구성하고 있습니다. Cybenko의 결과는 그가 사용하는 정확한 기술로 인해 독특하고 매우 흥미로운 반면, 그 풍미의 결과는 기계 학습에 매우 널리 사용됩니다 (그리고 다른 사람들을 가리킬 수 있습니다).
다음은 Cybenko의 결과가 유지되어야하는 이유를 요약 한 것입니다.
- 소형 세트의 연속 기능은 구간 단위 상수 기능으로 근사 할 수 있습니다.
- 부분 상수 함수는 다음과 같이 신경망으로 표현 될 수 있습니다. 함수가 일정한 각 영역에 대해 해당 영역의 표시기 함수로 신경망을 사용하십시오. 그런 다음 입력 선형 조합이 모든 지표의 합계이며 가중치가 원래 조각 별 상수 함수의 해당 영역 상수 값과 동일한 단일 노드로 최종 레이어를 만듭니다.
위의 첫 번째 점과 관련하여 이것은 "콤팩트 세트에 대한 연속 기능이 균일하게 연속적"이라는 진술로 간주 될 수 있습니다. 이것이 우리에게 의미하는 것은 당신이 위에 연속 함수를 취할 수있다 , 일부 대상 오차 ε > 0 , 다음 수 그리드 [ 0 , 1 ] D 규모 τ > 0 대략적으로 끝나는 ( ( 1 / τ ) D 하위 큐브) 각각의 하위 큐브 위에 일정한 함수 내에 있다고 ε 목표 함수.[ 0 , 1 ]디ϵ > 0[ 0 , 1 ]디τ> 0( 1 / τ)디ϵ
이제 신경망은 지표를 정확하게 나타낼 수는 없지만 매우 가까워 질 수 있습니다. "전달 함수"가 S 자형이라고 가정하십시오. (전달 함수는 신경망 노드의 값을 얻기 위해 입력의 선형 조합에 적용하는 연속 함수입니다.) 그런 다음 가중치를 크게하여 더 많은 입력을 위해 0에 가까운 값 또는 1에 가까운 값을 출력합니다. 이것은 Cybenko의 개발과 일치합니다. 한도에서 0 또는 1과 관련된 함수가 필요하다는 것을 주목하십시오. 한도를 정의하면 정확히 내가 말하는 것을 얻습니다.
(마지막 레이어에서 전달 함수를 무시했습니다. 거기에 있고 연속적이라면 , 전송에 따라 상수 가중치를 상수의 역상 이미지로 대체하여 에 매핑하는 모든 것을 맞출 수 있습니다. 기능.)[ 0 , 1 ]
위의 내용은 몇 개의 레이어 (예 : 큐브에 지표를 만든 다음 최종 출력 레이어)를 취하는 것처럼 보일 수 있습니다. Cybenko는 최소한의 숨겨진 레이어 수와 전송 기능 선택의 유연성이라는 두 가지 일반 사항을 시도했습니다. 나는 그가 이전 함수에서 유연성을 어떻게 발휘하는지 설명했습니다.
최소 층 수를 얻으려면 위의 구성을 피하고 대신 기능 분석을 사용하여 모순을 개발하십시오. 다음은 논쟁의 스케치입니다.
최종 노드는 그 아래에있는 레이어 요소의 선형 조합을 계산하고 전달 함수를 적용합니다. 이 선형 조합은 함수의 선형 조합이며, 그 자체로 함수, 기능의 일부 하위 공간에있는 함수이며 숨겨진 레이어의 가능한 노드에 걸쳐 있습니다.
함수의 부분 공간은 일반적인 유한 차원 부분 공간과 비슷하지만 잠재적으로 닫힌 집합이 아니라는 주요 차이점이 있습니다. 이것이 cybenko의 주장이 모두 해당 부분 공간을 폐쇄하는 이유입니다. 우리는이 클로저에 모든 연속 기능이 포함되어 있음을 증명하려고 노력하고 있습니다. 그것은 우리가 모든 연속 기능에 임의로 가까이 있다는 것을 의미합니다.
함수 공간이 단순하다면 (힐버트 공간) 다음과 같이 논쟁 할 수 있습니다. 부분 공간에 놓이지 않아야 할 목표 연속 함수를 선택하여 부분 공간의 직교 보체에 투영합니다. 이 잔차는 0이 아니어야합니다. 그러나 우리의 서브 공간은 위의 작은 큐브와 같은 것을 나타낼 수 있기 때문에이 잔차의 일부 영역을 찾고 작은 큐브를 위와 같이 맞추면 목표 함수에 더 가깝게 이동할 수 있습니다. 투영은 최소 요소를 선택하기 때문에 이것은 모순입니다. (참고로, 여기에 무언가를 남겨두고 있습니다 : Cybenko의 주장은 작은 큐브를 만들지 않습니다. 일반적으로 이것을 처리합니다. 이곳에서 Riesz 표현 정리의 형태와 전달 함수의 속성을 사용합니다 (기억하는 경우) 이 단계에는 별도의 정리가 있습니다.
우리는 힐버트 공간에 있지 않지만 한-바 나치 정리를 사용하여 위의 프로젝션 단계를 대체 할 수 있습니다 (한-바나 치가 선택한 공리를 사용함을 증명).
이제 Kolmogorov의 결과에 대해 몇 가지 말하고 싶습니다. 이 결과에는 분명히 Cybenko의 배경이 필요하지 않지만 개인적으로는 훨씬 더 위협적이라고 생각합니다.
O ( 일2)
자,이 모든 것이 어떻게 가능할까요?!
ϵ > 0τ> 0
[0,1][0,1]dO(d2)RdRO(d2)
Cybenko의 결과는 한 가지 유형의 전달 함수 만 사용하기 때문에 기계 학습과 더 관련이 있습니다. 이 유형의 정리는 기계 학습에서 매우 일반적입니다 (vzn은 자신의 답변에서 이것을 제안했지만 사용자 정의 전달 함수로 인해 적용이 덜되는 Kolmogorov의 결과를 언급했습니다. 이는 일부 고급 버전의 Kolmogorov 결과에서 약화됩니다 다른 저자), 그러나 여전히 프랙탈과 적어도 두 개의 전달 함수를 포함합니다).
나는이 주제에 대해 약간의 슬라이드를 가지고 있는데, 당신이 관심이 있다면 게시 할 수 있습니다 (위의 것보다 덜 소름 끼치며 그림이 있습니다. 그러나 Hahn-Banach와 친숙하기 전에 작성했습니다). 두 가지 증거 모두 매우 훌륭하다고 생각합니다. (또한이 주제에 대한 또 다른 대답이 있지만 Kolmogorov의 결과를 파악하기 전에 썼습니다.)