인공 신경망 다항식 특징을 갖는 선형 회귀와 동일합니까?


11

신경망에 대한 이해와 다른 기계 학습 알고리즘에 비해 그 이점을 향상시키고 싶습니다. 내 이해는 다음과 같으며 내 질문은 다음과 같습니다.

내 이해를 수정하고 보완 할 수 있습니까? :)

내 이해 :

(1) 인공 신경망 = 입력 값에서 출력 값을 예측하는 함수입니다. Universal Approximation Theorem ( https://en.wikipedia.org/wiki/Universal_approximation_theorem ) 에 따르면 , 충분한 뉴런이 주어지면 일반적으로 가능한 모든 예측 기능을 가질 수 있습니다.

(2) 다항식으로 각 함수를 대략적으로 (테일러 확장 비교) 할 수 있기 때문에 입력 값의 다항식을 추가 입력 값으로 취함으로써 선형 회귀에 대해서도 마찬가지입니다.

(3) 이것은 (가장 최상의 결과와 관련하여) 두 가지 방법이 동일하다는 것을 의미합니다.

(4) 따라서 주요 차이점은 방법이 더 나은 계산 구현에 적합하다는 것입니다. 다시 말해, 훈련 예제를 바탕으로 예측 함수를 정의하는 매개 변수에 대해 더 좋은 값을 찾는 방법을 찾을 수 있습니다.

나는 내 생각을 향상시키기 위해 다른 링크 또는 책에 대한 생각, 의견 및 권장 사항을 환영합니다.


2
로 이동해야합니다 math.stackexchange.com 으로 신경 네트워크 잘 활성화 대략적인 임의의 어떤 원활한 기능을 하지만, 한 번 더 기능이 : 부드러움 (가중치의 스케일링) 지점에 따라, 이것은 좋은 열쇠입니다 세계는 근사. 다항식 근사법으로는 연속 함수를 얻을 수 없으며 와의 컨벌루션을 수행하고 특정 시점에서 Taylor 확장의 처음 몇 항을 사용하면됩니다. 좋은 지역 근사)n d e π | n x | 2tanhndeπ|nx|2
user1952009

@ user1952009-Stone-Weierstrass는 정리에서 근사치의 균일 성으로 인해 임의의 우수한 근사치를 암시하지 않습니까?
jbowman

@jbowman이 좋은 지역의 근사치를 수행합니다 어떤을위한 지속적인 와 이 존재하는 (원하는대로), 분석 또는 다항식 기능을 원활하게 등을 그 . 신경망도 마찬가지이지만, 그 특징은 많은 다른 근사치 (약 )를 취하고 그것들을 혼합하여 어떤 종류의 전역 근사치를 얻을 수 있다는 것입니다. frϵfr,ϵsup|x|r|f(x)fr,ϵ(x)|ϵx0
user1952009

1
이것은 잠재적으로 stats.stackexchange.com/questions/41289/ 의 복제본입니다 ... 이 질문에 플래그 를 달았 지만 현상금이 적용되면 대신 여기에 의견을 달 것 같습니다 :)
Hugh Perkins

1
+1 @HughPerkins는 통찰력있는 관련 Q에 대한 링크를 제공합니다. 그러나 관련 질문에 대한 답변은 여기에 대한 질문에 대한 통찰력을 제공하지만 (예 : Stephan Kolassa는 aNN이 기본값으로 비선형 성을 고려하지만 회귀 분석 만 수행한다고 설명합니다) 추가 기술을 통해 특별히 모델링 된 경우) 중복 플래그를 지정하지 않습니다 . 어떤 모델 유형이 더 나은 결과를 제공 할 수 있는지 물었지만이 질문에서는 두 가지 방법이 결과와 일반화 가능성이 비슷한 지 여부를 구체적으로 설명해야합니다.
IWS

답변:


7

거래는 다음과 같습니다.

기술적으로 당신은 진정한 문장을 작성했습니다 (두 모델 모두 충분한 매개 변수가 주어지면 '미치지 않은'기능을 근사 할 수 있습니다).

왜 그런 겁니까? 글쎄, 보편적 근사 이론이나 신경망이 충분하다면 신경망이 어떤 f (x)를 계산할 수 있는지에 대한 공식적인 증거를 자세히 살펴보십시오.

내가 본 모든 종류의 증명은 하나의 숨겨진 레이어 만 사용합니다.

직관에 대해서는 http://neuralnetworksanddeeplearning.com/chap5.html 을 간단히 살펴보십시오 . 한 층을 사용하는 경우 필요한 뉴런 수가 기하 급수적으로 증가한다는 것을 보여주는 연구가 있습니다.

그래서 이론 상으로는 옳습니다. 실제로, 당신은 무한한 양의 기억을 가지고 있지 않으므로 2 ^ 1000 개의 뉴런 그물을 훈련시키고 싶지 않습니까? 당신이 무한한 양의 메모리를 가지고 있더라도, 그 그물은 확실히 초과 적합합니다.

제 생각에 ML의 가장 중요한 점은 실용적인 점입니다! 그것에 대해 조금 확장 해 봅시다. 여기서 가장 큰 문제는 다항식이 훈련 세트 밖에서 매우 빠르게 증가 / 감소하는 방법 만이 아닙니다. 전혀. 간단한 예로, 사진의 픽셀이 매우 특정한 범위 (각 RGB 색상에 대해 [0,255]) 내에 있으므로 새 샘플이 학습 설정 값 범위 내에있게됩니다. 아닙니다. 가장 중요한 것은이 비교는 (!)로 시작하는 데 유용하지 않습니다.

MNIST로 약간의 실험을 해보고 단 하나의 레이어 만 사용하여 얻을 수있는 실제 결과를 확인하십시오.

실용적인 그물은 하나 이상의 숨겨진 레이어를 사용하며 때로는 수십 개의 레이어를 사용합니다. 이런 이유로. 그 이유는 입증되지 않았으며, 일반적으로 신경망을위한 아키텍처를 선택하는 것은 뜨거운 연구 분야입니다. 다시 말해, 우리는 여전히 더 알아야 할 것이지만, 많은 데이터 세트에 대해 비교 한 두 모델 (선형 회귀 및 NN은 하나의 숨겨진 레이어)은 유용하지 않습니다!

그건 그렇고, ML에 들어갈 경우 실제로 현재 '연구 영역'-PAC (아마도 대략적인) / VC 차원 인 다른 쓸모없는 정리가 있습니다. 나는 그것을 보너스로 확장 할 것입니다 :

보편적 근사치에 기본적으로 무한한 양의 뉴런이 있다고한다면 어떤 기능에 대해서도 근사 할 수 있습니다 (매우 감사합니다). PAC가 말하는 실질적인 용어는 실용적으로 무한한 양의 레이블이있는 예입니다. 모델 내 최고의 가설을 원합니다. 실제 그물에 필요한 실제 예제의 양을 계산할 때 실제로 재미있는 양을 계산하면 정말 재미있었습니다. PS는 또한 샘플이 IID라고 가정합니다.


그렇다면 인공 신경망은 다항식 특징을 갖는 선형 회귀에 해당합니까? 당신의 대답은 레이어의 양과 필요한 뉴런에 초점을 맞추는 것처럼 보이지만,이 두 가지 분석이 왜 동등해야하는지 설명하지는 않습니다. 더 많은 (숨겨진) 레이어를 추가하면 신경망이 다항식 회귀보다 더 많은 기능을 처리 할 수 ​​있습니까? 그리고 OP가 스스로 답을 얻었을 때, 이러한 모델의 외부 유효성 / 샘플 외부 성능 (더 복잡한 모델 옵션과 성능 사용 간의 트레이드 오프)은 어떻습니까?
IWS

나는 첫 번째 문장 인 "기술적으로 당신은 진실한 문장을 썼습니다."
Yoni Keren

글쎄, 'OP가 진실한 문장을 썼다'는 당신의 진술에 대한 추론이 당신의 대답에 근거하여 명확하지 않기 때문에 나는 물었다. 이에 대해 자세히 설명해 주시겠습니까?
IWS

확실 해요 이것이 더 좋습니까, 아니면 여전히 불분명 한 것이 있습니까?
Yoni Keren

8

신경망으로 간주되는 것과 다항식으로 간주되는 것으로 인해 모든 함수를 임의로 근사 할 수 있습니다.

우선, 이것은 많은 구조에 해당된다는 것을 명심하십시오. 사인과 코사인 (푸리에 변환)을 결합하거나 단순히 많은 "사각형"(실제로 정확한 정의는 아니지만 포인트를 얻음)을 추가하여 모든 함수를 근사화 할 수 있습니다.

둘째, Yoni의 대답과 마찬가지로 네트워크를 훈련하거나 많은 힘, 회귀 수 또는 힘 수로 회귀를 맞출 때마다 고정됩니다. 그런 다음 그라디언트 하강 또는 알고리즘을 적용하고 그에 가장 적합한 매개 변수를 찾으십시오. 매개 변수는 네트워크의 가중치와 큰 다항식에 대한 계수입니다. 다항식에서 사용되는 최대 힘 또는 사용 된 뉴런 수를 하이퍼 파라미터라고합니다. 실제로는 몇 가지를 시도합니다. 매개 변수가 매개 변수 인 경우를 만들 수 있지만 실제로는 그렇지 않습니다.

하지만 머신 러닝을 사용하면 데이터에 완벽하게 맞는 기능을 원하지 않습니다. 그것은 실제로 달성하기가 너무 어렵지 않을 것입니다. 잘 맞는 것을 원하지만 아직 보지 못한 점에서도 효과가 있습니다. 예를 들어에 대한 설명서에서 가져온이 그림을 참조하십시오 scikit-learn.

선은 너무 단순하지만 가장 가까운 근사값은 오른쪽에 있지 않습니다. 오른쪽에있는 함수가 가장 적합하지만 가운데에 있습니다. 오른쪽의 함수는 특히 왼쪽의 흔들림 비트 근처에있는 경우 새 데이터 포인트에 대해 이상한 (아마도 차선의) 예측을합니다.

몇 가지 매개 변수가 잘 작동하는 신경망의 궁극적 인 이유는 무언가에 맞을 수는 있지만 과도하게 맞지 않기 때문입니다. 이것은 또한 어떤 형태의 확률 론적 경사 하강과 함께 훈련 된 방식과도 관련이 있습니다.


2

답변이 아직 제공되지 않았으므로 (user1952009의 의견은 답변으로 게시 되었음에도 불구하고) 그 동안 배운 내용을 공유하겠습니다.

(1) 내 이해가 일반적으로 옳은 것처럼 보이지만 악마는 세부 사항에 있습니다.

(2) "나의 이해"에서 놓친 한 가지 : 매개 변수화 된 가설은 훈련 세트 외부의 데이터에 대해 얼마나 잘 일반화됩니까? 신경망 예측의 비 다항식 특성은 단순한 선형 / 다항식 회귀보다 더 좋을 수 있습니다 (다항식이 훈련 세트 외부에서 매우 빠르게 증가 / 감소하는 방법을 기억하십시오).

(3) 매개 변수를 빠르게 계산할 수 있어야하는 중요성을 설명하는 링크 : http://www.heatonresearch.com/2017/06/01/hidden-layers.html


2

이 백서가 도움이 될 수 있습니다.

신경망의 대안으로 다항식 회귀

초록은 말한다 :

신경망 (NN)의 성공에도 불구하고, 여전히 "블랙 박스"특성에 대한 많은 우려가 있습니다. 그들은 왜 작동합니까? 여기 우리는 NN이 실제로 다항식 회귀 모델이라는 간단한 분석 주장을 제시합니다. 이 견해는 NN에 수렴 문제가 발생하는 이유에 대한 설명을 제공하는 등 NN에 다양한 영향을 미치며 과적 합 방지에 대한 대략적인 지침을 제공합니다. 또한이 현상을 사용하여 이전에 문헌에보고되지 않은 NN의 다중 공선 성 특성을 예측하고 확인합니다. 가장 중요한 것은 이러한 느슨한 대응 관계를 고려할 때 NN 대신에 다항식 모델을 일상적으로 사용하도록 선택할 수 있으므로 많은 튜닝 매개 변수를 설정하고 수렴 문제를 처리하는 등 후자의 주요 문제를 피할 수 있습니다. 우리는 많은 경험적 결과를 제시한다. 각각의 경우에, 다항식 접근법의 정확도는 NN 접근법의 정확도와 일치하거나이를 초과한다. 다양한 기능을 갖춘 오픈 소스 소프트웨어 패키지 인 polyreg를 사용할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.