보편적 근사 정리-신경망


23

나는 이것을 MSE에 일찍 게시 했지만 여기에 더 좋은 곳이 될 수 있다고 제안했다.

보편적 인 근사 정리 는 "유한 한 수의 숨겨진 뉴런을 포함하는 단일 숨겨진 계층을 갖는 표준 다층 피드-포워드 네트워크는 활성화 함수에 대한 가벼운 가정 하에서 Rn의 소형 서브 세트에 대한 연속 함수들 사이에서 보편적 인 근 사기"라고 말합니다.

이것이 무엇을 의미하는지 이해하지만 관련 논문이 왜 그것이 사실인지 또는 숨겨진 레이어가 비선형 함수에 어떻게 근접하는지 파악하기에는 수학 이해 수준에 비해 너무 멀리 있습니다.

따라서 기본 미적분학 및 선형 대수보다 조금 더 발전된 측면에서 숨겨진 레이어가 하나 인 피드 포워드 네트워크는 비선형 함수와 어떻게 유사합니까? 답이 반드시 구체적 일 필요는 없습니다.



내가 찾은 시각적 증거 마이클 꽤 유용 닐슨에 의해
씨 Tsjolder

답변:


26

Cybenko의 결과는 아래에 전달하고자하므로 상당히 직관적입니다. 더 까다로운 것은 일반성뿐만 아니라 최소한의 숨겨진 레이어를 목표로한다는 것입니다. Kolmogorov의 결과 (vzn에 의해 언급 됨)는 실제로 더 강력한 보증을 달성하지만 기계 학습과 관련성이 다소 떨어집니다 (특히, 노드가 이질적이므로 표준 신경망을 구축하지 않음). 이 결과는 표면에 한계와 연속 기능을 기록하는 3 페이지에 불과하기 때문에 어려워 보이지만 실제로는 일련의 프랙탈을 구성하고 있습니다. Cybenko의 결과는 그가 사용하는 정확한 기술로 인해 독특하고 매우 흥미로운 반면, 그 풍미의 결과는 기계 학습에 매우 널리 사용됩니다 (그리고 다른 사람들을 가리킬 수 있습니다).

다음은 Cybenko의 결과가 유지되어야하는 이유를 요약 한 것입니다.

  • 소형 세트의 연속 기능은 구간 단위 상수 기능으로 근사 할 수 있습니다.
  • 부분 상수 함수는 다음과 같이 신경망으로 표현 될 수 있습니다. 함수가 일정한 각 영역에 대해 해당 영역의 표시기 함수로 신경망을 사용하십시오. 그런 다음 입력 선형 조합이 모든 지표의 합계이며 가중치가 원래 조각 별 상수 함수의 해당 영역 상수 값과 동일한 단일 노드로 최종 레이어를 만듭니다.

위의 첫 번째 점과 관련하여 이것은 "콤팩트 세트에 대한 연속 기능이 균일하게 연속적"이라는 진술로 간주 될 수 있습니다. 이것이 우리에게 의미하는 것은 당신이 위에 연속 함수를 취할 수있다 , 일부 대상 오차 ε > 0 , 다음 수 그리드 [ 0 , 1 ] D 규모 τ > 0 대략적으로 끝나는 ( ( 1 / τ ) D 하위 큐브) 각각의 하위 큐브 위에 일정한 함수 내에 있다고 ε 목표 함수.[0,1]dϵ>0[0,1]dτ>0(1/τ)dϵ

이제 신경망은 지표를 정확하게 나타낼 수는 없지만 매우 가까워 질 수 있습니다. "전달 함수"가 S 자형이라고 가정하십시오. (전달 함수는 신경망 노드의 값을 얻기 위해 입력의 선형 조합에 적용하는 연속 함수입니다.) 그런 다음 가중치를 크게하여 더 많은 입력을 위해 0에 가까운 값 또는 1에 가까운 값을 출력합니다. 이것은 Cybenko의 개발과 일치합니다. 한도에서 0 또는 1과 관련된 함수가 필요하다는 것을 주목하십시오. 한도를 정의하면 정확히 내가 말하는 것을 얻습니다.

(마지막 레이어에서 전달 함수를 무시했습니다. 거기에 있고 연속적이라면 , 전송에 따라 상수 가중치를 상수의 역상 이미지로 대체하여 에 매핑하는 모든 것을 맞출 수 있습니다. 기능.)[0,1]

위의 내용은 몇 개의 레이어 (예 : 큐브에 지표를 만든 다음 최종 출력 레이어)를 취하는 것처럼 보일 수 있습니다. Cybenko는 최소한의 숨겨진 레이어 수와 전송 기능 선택의 유연성이라는 두 가지 일반 사항을 시도했습니다. 나는 그가 이전 함수에서 유연성을 어떻게 발휘하는지 설명했습니다.

최소 층 수를 얻으려면 위의 구성을 피하고 대신 기능 분석을 사용하여 모순을 개발하십시오. 다음은 논쟁의 스케치입니다.

  • 최종 노드는 그 아래에있는 레이어 요소의 선형 조합을 계산하고 전달 함수를 적용합니다. 이 선형 조합은 함수의 선형 조합이며, 그 자체로 함수, 기능의 일부 하위 공간에있는 함수이며 숨겨진 레이어의 가능한 노드에 걸쳐 있습니다.

  • 함수의 부분 공간은 일반적인 유한 차원 부분 공간과 비슷하지만 잠재적으로 닫힌 집합이 아니라는 주요 차이점이 있습니다. 이것이 cybenko의 주장이 모두 해당 부분 공간을 폐쇄하는 이유입니다. 우리는이 클로저에 모든 연속 기능이 포함되어 있음을 증명하려고 노력하고 있습니다. 그것은 우리가 모든 연속 기능에 임의로 가까이 있다는 것을 의미합니다.

  • 함수 공간이 단순하다면 (힐버트 공간) 다음과 같이 논쟁 할 수 있습니다. 부분 공간에 놓이지 않아야 할 목표 연속 함수를 선택하여 부분 공간의 직교 보체에 투영합니다. 이 잔차는 0이 아니어야합니다. 그러나 우리의 서브 공간은 위의 작은 큐브와 같은 것을 나타낼 수 있기 때문에이 잔차의 일부 영역을 찾고 작은 큐브를 위와 같이 맞추면 목표 함수에 더 가깝게 이동할 수 있습니다. 투영은 최소 요소를 선택하기 때문에 이것은 모순입니다. (참고로, 여기에 무언가를 남겨두고 있습니다 : Cybenko의 주장은 작은 큐브를 만들지 않습니다. 일반적으로 이것을 처리합니다. 이곳에서 Riesz 표현 정리의 형태와 전달 함수의 속성을 사용합니다 (기억하는 경우) 이 단계에는 별도의 정리가 있습니다.

  • 우리는 힐버트 공간에 있지 않지만 한-바 나치 정리를 사용하여 위의 프로젝션 단계를 대체 할 수 있습니다 (한-바나 치가 선택한 공리를 사용함을 증명).

이제 Kolmogorov의 결과에 대해 몇 가지 말하고 싶습니다. 이 결과에는 분명히 Cybenko의 배경이 필요하지 않지만 개인적으로는 훨씬 더 위협적이라고 생각합니다.

O(d2)

자,이 모든 것이 어떻게 가능할까요?!

ϵ>0τ>0

[0,1][0,1]dO(d2)RdRO(d2)

Cybenko의 결과는 한 가지 유형의 전달 함수 만 사용하기 때문에 기계 학습과 더 관련이 있습니다. 이 유형의 정리는 기계 학습에서 매우 일반적입니다 (vzn은 자신의 답변에서 이것을 제안했지만 사용자 정의 전달 함수로 인해 적용이 덜되는 Kolmogorov의 결과를 언급했습니다. 이는 일부 고급 버전의 Kolmogorov 결과에서 약화됩니다 다른 저자), 그러나 여전히 프랙탈과 적어도 두 개의 전달 함수를 포함합니다).

나는이 주제에 대해 약간의 슬라이드를 가지고 있는데, 당신이 관심이 있다면 게시 할 수 있습니다 (위의 것보다 덜 소름 끼치며 그림이 있습니다. 그러나 Hahn-Banach와 친숙하기 전에 작성했습니다). 두 가지 증거 모두 매우 훌륭하다고 생각합니다. (또한이 주제에 대한 또 다른 대답이 있지만 Kolmogorov의 결과를 파악하기 전에 썼습니다.)


1
ABϕfA:ϕ(f)1gB:ϕ(g)>1
Sasho Nikolov

3
SfSLL(g)=0gSL(f)=fL(f)일부 서명 된 측정과 관련하여 필수입니다. 그러나 이것은 전달 함수에 대한 Cybenko의 조건으로 인한 증거를 마무리합니다 (다음 주석에서 계속).
matus

3
@SashoNikolov의 Cybenko의 조건은 정확히 0이 아닌 부호있는 측정 값이 주어지면, affine 함수가 존재하여 해당 affine 함수로 구성된 전달 함수의 통합이 해당 측정 값보다 0이 아니라는 것입니다. 그런 다음 일반화 된 시그 모이 드 (왼쪽과 오른쪽의 0과 1의 한계)가 법안에 맞는 일반형임을 입증해야합니다. (다음 주석에서 계속됨)
matus

2
@SashoNikolov. 위의 "잔류 물을 따라 큐브를 배치"라고 말했다. 서명 된 측정 값이 정확히 0이 아니기 때문에 약간의 부분을 골라서 거기에 지표를 표시합니다. 그의 경우, 그는 약간의 노력을 기울여야하지만, 마찬가지로 이것은 아핀 함수로 시그 모이 드를 움직여서 쉬운 영역을 찾아서, 0이 아닌 적분을 얻습니다. ; 힐버트의 의미에서 우리는 우리의 잔류와 모순을 줄였습니다.
matus

1
와우, 이것은 매우 좋은 대답입니다. 당연히, 당신이 그들에게 대답하지 않는다면 몇 가지 질문이 있습니다. Cybenko의 결과 (당신이 말했듯이)는 응용 프로그램에 가장 유용한 것처럼 보이지만 함수의 하위 공간을 처리하는 데 약간의 손실이 있습니다. 가능한 노드의 선형 조합의 부분 공간의 직교 보체에 임의의 연속 함수를 투영하는 방법 그 문제에 대해, 우리는 그 부분 공간의 직교 칭찬을 어떻게 개념화합니까? 공간에서 더 가까운 기능이 서로 더 가깝게 있습니까? (계속되는).
매트 먼슨

3

Kolmogorov의 정리 [1]로 알려진 머신 러닝의 핵심 인 고급 결과가 있습니다. 나는 그것이 왜 작동하는지 직관적 인 스케치를 본 적이 없다. 이것은 접근하는 다른 문화와 관련이있을 수 있습니다. 응용 학습 집단은 Kolmogorov의 정리를 NN이 존재할 수 있음을 나타내는 존재 정리로 간주하므로 최소한 구조가 지나치게 제한적이지는 않지만 정리는 이러한 NN을 찾을 수 있다고 보장하지는 않습니다. 수학자들은 정리의 저수준 적용에 관심이 없습니다.

이 이론은 역사적으로 다층 NN의 고유 한 정교함을 불러 일으키거나 방어하기 위해 Perceptrons (Minsky / Papert)의 기본적인 기능 (즉, 비선형)이 학습 할 수 없다는 비판에 대응하기 위해 사용되었습니다.

이론적 컴퓨터 과학자들은 NN을 "근사" 로 간주하지 않는 것을 선호합니다. 그 용어는 특별한 / 다른 의미를 갖기 때문입니다. 부분 선형 보간법 과 약간의 유사점이 있지만 아마도 다시는 보지 못했습니다.

[1] Kolmogorov, AN (1957). 하나의 변수의 연속 함수의 중첩과 덧셈에 의해 많은 변수의 연속 함수의 표현. Doklady Akademii Nauk SSSR, 144, 679-681; 미국 수학 학회 번역, 28, 55-59 [1963]

[2] 2.3 연속 기능을위한 피드 포워드 신경망의 근사 기능

[3] 콜 모고 로프의 정리 및 다층 신경망 Kurkova


기계 학습 기술 근사 알고리즘 도 참조하십시오 ? , stats.se
vzn

"이 고급 결과 [...]는 왜 작동하는지 직관적 인 스케치를 보지 못했습니다." 그러한 스케치가 고급 수학 군중의 누군가에게 상당한 사업일까요? 고급 수학 사람들은 왜 그것이 작동하는지 직관적으로 이해합니까? 이 정리에 대한 직관적 인 이해는 ANN을위한 우수한 토폴로지와 학습 알고리즘을 고안하려는 경우에 적용되는 학습 집단이 강하게 원하는 것 같습니다.
매트 먼슨

7
문법, 철자, 구두점 및 대문자를 위해 수정되었습니다.
Jeffε
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.