머신 러닝에 대한 원리적이고 수학적인 이론을 갖는 것이 왜 그렇게 중요한가?

25

궁금한 점이 있는데, 이론적 / 이론적 기계 학습을하는 것이 왜 그렇게 중요한가? 인간으로서 개인적 관점에서, 나는 왜 머신 러닝이 중요한지를 이해할 수 있습니다.

인간은 자신이하는 일을 이해하는 것을 좋아합니다.
이론의 관점에서 수학은 재미있다
사물의 디자인을 안내하는 원칙이있을 경우 무작위 추측, 이상한 시행 착오에 소요되는 시간이 줄어 듭니다. 우리가 신경망이 실제로 어떻게 작동하는지 이해한다면, 지금 당장 들어가는 엄청난 시행 착오보다는 그것들을 설계하는 데 훨씬 더 많은 시간을 할애 할 수있을 것입니다.
보다 최근에는 원칙이 명확하고 이론도 명확하다면 시스템에 대한 투명성이 더 높아야합니다. 시스템이 작동하는 것을 이해하면 AI가 많은 사람들이 과대 광고를하게 될 위험이 있기 때문에 이것은 좋은 일입니다.
원칙은 세상이 가질 수있는 중요한 구조와 다른 도구 대신 도구를 사용해야하는시기를 요약하는 간결한 방법 인 것 같습니다.

그러나 머신 러닝에 대한 강렬한 이론적 연구를 정당화 할만큼 충분히 강력한 이유가 있습니까? 이론에 대한 가장 큰 비판 중 하나는 그렇게하기가 어렵 기 때문에 대개 매우 제한된 경우 나 본질적으로 결과를 쓸모 없게 만드는 가정을 연구하게된다는 것입니다. Tor 제작자가 MIT에서 한 연설에서 한 번 들었습니다. 토르가 들었다는 비판 중 일부는 이론적 주장이지만, 사람들은 실제로는 실제 시나리오에 대한 것들을 너무 복잡해서 증명할 수 없다.

컴퓨팅 성능과 데이터가 많은이 새로운 시대에 실제 데이터 세트와 테스트 세트로 모델을 테스트 할 수 있습니다. 우리는 경험주의를 통해 일이 잘되는지 볼 수 있습니다. 우리가 대신 엔지니어링 및 경험주의와 함께 작동하는 AGI 또는 시스템을 달성 할 수 있다면, 특히 정량 한계를 달성하기가 어려운 경우에도 머신 러닝에 대한 원칙적이고 이론적 인 정당성을 추구 할 가치가 있지만 직관과 질적 답변이 훨씬 더 쉽습니다. 데이터 중심 접근 방식으로 달성 하시겠습니까? 이 접근법은 고전 통계에서는 사용할 수 없었기 때문에, 당시에는 이론이 그토록 중요했던 것으로 생각됩니다. 왜냐하면 수학은 우리가 상황이 정확하다고 확신 할 수있는 유일한 방법이거나 실제로 생각했던 방식대로 작동했기 때문입니다.

나는 개인적으로 항상 사랑하고 이론과 원칙적인 접근 방식이 중요하다고 생각했습니다. 그러나 실제 데이터와 컴퓨팅 성능으로 시험해 볼 수있는 능력 덕분에 이론적 추구의 높은 노력 (및 잠재적으로 낮은 보상)이 여전히 가치가 있는지 궁금해졌습니다.

머신 러닝의 이론적이고 원칙적인 추구가 정말로 중요합니까?

— 찰리 파커
소스

"이론이 없다면 ML 방법을 적용 할 새로운 데이터 세트에 경험적 결과가 적용되기를 희망하고 있습니다. 그러나 경험적 결과를 관찰했을 때 유지되었던 일부 속성이나 가정이 반드시 앞으로 나아가는 것은 아닙니다. 새로운 데이터 세트에. "

— Charlie Parker

17

이에 대한 정답은 없지만 아마도 "모든 것이 적당합니다". 기계 학습의 많은 최근 개선 사항, 즉 드롭 아웃, 잔류 연결, 촘촘한 연결, 배치 정규화는 특히 깊은 이론에 뿌리를 두지 않았지만 (몇 단락에서 정당화 될 수 있음) 궁극적으로 몇 가지 병목 현상이 있다고 생각합니다. 이러한 결과는 큰 영향을 줄 수 있습니다. 어떤 시점에서 당신은 앉아서 큰 도약을하기 위해 약간의 추가 이론을 연구해야합니다. 또한 이론은 직관적 의심을 불러 일으키는 모델의 품질이나 한계를 입증 할 수 있기 때문에 직관을 안내 할 수 있습니다. SGD가 특정 문제에 대해 모멘텀보다 낫다는 것을 알면 특히 중요합니다. 그것은 이론에 대한 좋은 점입니다. 그것은 해결하려는 문제를 추상화하도록 강요합니다.

떠오르는 가장 큰 예는 벡터 머신 지원입니다. 원래 Vapnik과 Chervonenkis가 60 년대 초에 고안했지만 Vapnik과 다른 사람들이 커널 트릭을 사용하여 비선형 SVM을 수행 할 수 있다는 사실을 깨달았을 때 90 년대 초에 실제로 시작되었습니다. Vapnik과 Chervonenkis는 VC 차원 의 이론을 제시했습니다.이는 머신 러닝에 대한 복잡성 측정을 시도한 것입니다. VC 차원의 실제 적용은 생각할 수 없지만 SVM의 아이디어는 이에 대한 작업의 영향을 받았을 것입니다. 커널 트릭 자체는 힐버트 공간에 대한 추상적 인 수학에서 나옵니다. SVM을 생각해 내려면이 추상적 인 넌센스를 알아야 할 필요가 있지만, 특히 많은 수학자들이 머신 러닝에 대해 흥분했기 때문에 상당히 도움이 될 것이라고 생각합니다.

ResNet의 주제에 따르면, 최근에는 잔여 아키텍처가 실제로 100 레이어의 깊이 일 필요는 없음을 시사하는 몇 가지 깔끔한 작업이있었습니다. 실제로 일부 연구는 잔류 연결이 RNN과 매우 유사하다는 것을 시사합니다 (예 : 잔차 학습, 재발 신경망과 시각 피질 사이의 격차 해소 , Liao et al.). 이론적으로 많은 레이어를 가진 ResNet은 실제로 비효율적이며 부풀어 오른다.

RNN에 대한 그라디언트 클리핑에 대한 아이디어는 현재 유명한 논문 " 재귀 신경 네트워크 훈련의 어려움에 대하여 "-Pascanu, et. 알. 모든 이론이 없다면 그라디언트 클리핑을 생각해 낼 수는 있지만, RNN이 역동적 인 시스템 맵에 대한 유추를 그려서 멋진 무언가를하지 않고 왜 훈련하기가 어려운지 이해하는 데 먼 길을 가고 있다고 생각합니다. ).

Entropy Stochastic Gradient Descent 방법 에 대한 많은 흥분이 있습니다. 이것들은 Langevin 역학에서 파생되었으며, 이론적 결과의 대부분은 고전적인 이론적 PDE 이론과 통계 물리학에 확고하게 뿌리를두고 있습니다. SGD가 손실 함수의 로컬 변동에 어떻게 걸리는지, 그리고 SGD를 훨씬 효율적으로 만들기 위해 로컬로 손실 함수를 스무딩 할 수 있다는 점에서 SGD를 새로운 시각으로 캐스팅했기 때문에 결과는 유망합니다. SGD가 유용한시기와 제대로 작동하지 않는시기를 이해하는 데는 먼 길을갑니다. 이것은 다른 종류의 모델에서 SGD를 시도함으로써 경험적으로 도출 할 수있는 것이 아닙니다.

신경 네트워크의 흥미로운 속성 논문 에서, 저자들은 신경 네트워크가 층들 사이의 높은 Lipchitz 상수로 인해 (예를 들어, 계산 된 이미지의 얇은 교란으로 정의 된) 적대적인 예에 민감하다고 요약합니다. 이것은 여전히 활발한 연구 분야이며보다 이론적 인 도출을 통해서만 더 잘 이해할 수 있습니다.

또한 적어도 하나의 회사 ( Ayasdi )가 형성된 토폴로지 데이터 분석 의 예가 있습니다. 이것은 특히 흥미로운 예입니다. 사용 된 기술은 매우 구체적이고 추상적이기 때문에 오늘날에도이 이론의 아이디어가 어디에서 나오는지 보는 데 여전히 많은 시간이 걸릴 것입니다. 내 이해는 관련된 알고리즘의 계산 복잡도가 상당히 높은 경향이 있다는 것입니다 (그러나 20 년 전 신경 네트워크의 경우에도 마찬가지로 높았습니다).

— 알렉스 알
소스

7

이 질문에 대한 대답은 실제로 매우 간단합니다. 머신 러닝 모델을 뒷받침하는 이론적 타당성을 통해 우리는 다소 현실적인 조건이 충족 될 때 솔루션에 대한 최적 성이 보장된다는 것을 최소한 증명할 수 있습니다. 그것이 없으면, 우리는 어떤 보증도 하지 않습니다. 물론, "어떤 것이 작동하는지 확인하고 특정 문제에 사용하자"라고 말할 수 있지만, 머신 러닝 문제를 해결할 수있는 방법 에는 무한한 방법 이 있기 때문에 불가능 합니다.

주어지면 를 예측하고 싶다고 가정하십시오 . 가 그것을 해결하는 최적의 방법이 아니라는 것을 어떻게 알 수 있습니까? 무엇에 대한 ? 또는 ? 아마 당신의 예측으로 를 반환 합니까? 또는 가 홀수이면 하고 그렇지 않으면 반환 합니까? 물론, 그 모든 제안은 터무니 없지만 이론 없이는 그 중 하나가 최적이 아님을 어떻게 확신 할 수 있습니까? 가능한 많은 솔루션을 사용하면 가장 간단한 문제조차도 해결할 수 없게됩니다. 이론은 일부 부류의 문제에 대해 실현 가능한 모델의 "검색 공간"을 제한합니다 (어떤 모델이 고려할 가치가 있고 어떤 것이 아닌지 알고 있습니다). $Y$ $X$ $X + 42$ $X + 42.5$ $\sqrt{X - 42}$ $42$ $X$ $X+42$ $0$

— 팀
소스

2

훈련 된 모델이 유효성 검사 및 테스트 세트에서 작동하는지 확인하고 있습니까? 한계를 실제로 사용할 수없는 경우 이론적 한계에는 어떤 보장이 있습니까?

— Charlie Parker

6

X + c

$X + c$

c

$c$

(- \infty, \infty)

$(-\infty, \infty)$

5

문제를 살펴보면 : 머신 러닝의 이론적이고 원칙적인 추구가 정말로 중요합니까?

"중요"의 의미를 정의하십시오. 철학적 관점에서 비롯된 것은 무언가를 묘사하거나 이해하려는 경우 근본적인 차이입니다. 다소 조잡한 대답에서 그것은 과학적 또는 다른 것의 차이점입니다. 그것의 실제적인 부분은 근본적인 질문과 관련이 없습니다. 증명하기가 너무 어렵거나이를 입증하기가 불가능하다면 중요한 발견입니다. (Goedel et al. 입력) 그러나 이것이 관련이 없음을 의미하지는 않습니다. 그것은 실제적인 관점에서 적어도 관련이없는 것처럼 보일 수 있습니다. 그러나 최소한 주요한 중요성과 가치가있는 것으로 인식되어야합니다.

비유를 생각해보십시오. 약은 전체적으로 (그리고 과거로부터) 과학적이지 않습니다. 어떤 식 으로든 실제로는 절대 불가능합니다. 그것은 전적으로 결과에 의해 지배되는 규율입니다. 대부분의 경우 "진실"과 같은 것은 없습니다. 그러나 일부 부분은 실제로 과학적 일 수 있으며, 계획된 대부분의 진행이 진행되고있는 곳입니다.

또 다른 매우 짧은 설명은 이론이 없으면 많은 돈을 벌 수 있다는 것입니다. 그것이 "더 큰 재화"에 정말 유용하다면, 노벨상을받을 수도 있습니다. 그러나 당신은 결코 Fields 메달을 얻지 못할 것입니다.

— 케루빔
소스

1

+1 나는 이것이 OP에 대한 흥미로운 답을 찾았지만, 비과학적인 것으로 의학을 정교하게 요구할 것이다. 환자를 괴롭히는 것을 찾는 진단 과정, 차별 진단 (의심 된 질병의 이론적 개념)이 가정되는 과정 및 가장 가능성이 높은 질병을 예측하기 위해 데이터가 수집됩니까? ...

— IWS

(계속) ... 의사가 이용 가능한 데이터를 기반으로 미래의 질병 경과를 추정하려고 시도하는 예후가 없습니다. 추적 및 경험적 발견에 의해 일반적으로 확인 될 수 있는가? 그리고 마지막으로 과학은 더 높지만 존재하는 진리에 대한 탐구입니까, 아니면 현재 존재한다고 믿는 진리의 구성에 근사합니까?

— IWS December

실제로 의학 문제는 조금 더 깊어집니다. 과학은 기본적으로 단지 방법이나 과정입니다. 과학이 "작동하려면"위조 가능성이있는 동일한 근거에서 가설을 테스트 할 수 있어야합니다. 한마디로, 만약 당신이 이론을 잘못 증명할 수 없다면, 비과학적인 것입니다. 의학의 경우 이것은 너무 많은 윤리적 영향을 미치며 다른 옵션으로 같은 시점에 누군가를 대할 수 없기 때문에 가설 테스트는 실제로 어렵습니다. [...]

— 천사 님

두 번째 부분 (과학에 대한 진실 탐구)에 관해서는 다시 말하지만 그것은 단지 방법 일뿐입니다. 인류가 생각 해낸 가장 성공적인 방법 인 것 같습니다. 그러나 그것은 믿을만한 것이 아니라 사실에 근거한 것입니다. 그리고 어떤면에서는 폐쇄 시스템이기도합니다. 진실과 똑같은 것으로 보이는 구조 사이에는 (과학적인) 구별이 없습니다. 과학자들 사이의 합의에 따라 약간의 규칙 (예 : Occams Razor)이 주어질 수 있지만 과학은 과학 이외의 바다에서 나침반이 아닙니다.

— cherub

5

인간은 물리 법칙없이 수 세기 동안 배, 마차 및 건물을 지을 수있었습니다. 그러나 현대 과학 이후, 우리는 그 기술을 완전히 새로운 차원으로 끌어 올렸습니다. 입증 된 이론을 통해 원칙적으로 개선 할 수 있습니다. 수학과 계산에 대한 수학적 이론 없이는 달에 컴퓨터를 만들거나 컴퓨터를 갖지 못했을 것입니다.

기계 학습은 다른 과학 및 공학 분야 일뿐입니다. 머신 러닝에 대한 원칙적인 접근 방식은 커널 머신, 구조적 학습 및 앙상블 방법 (부스팅, 랜덤 포레스트)을 제공했습니다.

— jpmuc
소스

5

여기 내 작품에서 간단한 예가 있습니다.

나는 많은 신경망을 연속적인 결과에 맞추었다. 역 전파에 의해 가중치를 결정한다. 결국 수렴 될 것입니다.

{(A^{T} A)}^{- 1} A^{T} y

$\mathbf{\left(A^TA\right)^{-1}A^Ty}$

A

$\mathbf{A}$

y

$y$

나의 그물은 더 빨리 수렴 합니다.

고마워요, 이론

— generic_user
소스

3

경험론 대 이론

당신은 썼다 :

이론에 대한 가장 큰 비판 중 하나는 그렇게하기가 어렵 기 때문에 대개 매우 제한된 경우 나 본질적으로 결과를 쓸모 없게 만드는 가정을 연구하게된다는 것입니다.

이것은 우리가 경험 적이고 이론적 이라고 부를 수있는 두 가지 관점 사이의 주요한 구분을 보여 주는 것 같습니다 .

경험적 관점에서 보았 듯이, 이론은 실제 세계를 모델링하기에 충분히 복잡하지 않기 때문에 쓸모가 없습니다. 현실 세계의 어느 곳에도 적용되지 않는 단순화 된 이상적인 시나리오에 대해 이야기합니다. 이론을 세우는 데있어 요점은 무엇입니까?

그러나 이론적 인 관점에서는 그 반대입니다. "이 데이터 세트에서이 방법을 실행했으며이 동일한 데이터 세트에서 다른 방법을 실행하는 것보다 낫습니다." 이것은 하나의 인스턴스에는 유용하지만 문제에 대해서는 거의 말하지 않습니다.

이론은 어떤 보증을 제공합니다. 또한 간단한 시나리오를 정확하게 연구하여 진행 상황을 이해하기 시작할 수 있습니다.

예

실제 예를 상상해보십시오. 개념 드리프트 (시간이 지남에 따라 데이터가 변경 될 때)가 학습 능력에 어떤 영향을 미치는지 알고 싶습니다. 순수한 경험 주의자가이 질문에 어떻게 접근 할 것입니까? 그가 할 수있는 일은 다른 방법을 적용하기 시작하고 그가 할 수있는 트릭에 대해 생각하는 것입니다. 전체 절차는 다음과 유사 할 수 있습니다.

300 일이 지난 후 해당 변수의 평균이 변경되었는지 감지하십시오. 좋아 그것은 다소 효과가 있었다.
대신 200 일을 시도하면 어떻게 되나요?
드리프트가 발생하면 알고리즘을 변경해 봅시다.
더 많은 데이터 세트를 얻고 지금까지 개발 된 방법 중 가장 효과적인 방법을 확인하십시오.
결과는 결정적이지 않습니다. 아마도 여러 가지 유형의 개념 드리프트가 진행되고 있다고 생각하십니까?
시뮬레이션을 시도하십시오. 개념 드리프트를 시뮬레이션 한 다음 변경 발생 여부를 감지하는 데 사용 된 다른 일 수를 사용하여 다른 방법을 적용하면 어떻게 될까요?

우리가 가진 것은 몇 가지 데이터 세트에 대한 매우 정확한 결과입니다. 어쩌면 데이터는 200 일 지난 관측치에 따라 학습 알고리즘을 업데이트하는 것이 가장 높은 정확도를 제공했을 수 있습니다. 그러나 다른 데이터에도 동일하게 적용됩니까? 이 200 일 추정치는 얼마나 신뢰할 수 있습니까? 시뮬레이션은 도움이되지만 실제 문제를 반영하지는 않습니다.

이제 이론적 인 관점에서 똑같이 상상해보십시오.

시나리오를 터무니없는 수준으로 단순화하십시오. 시간이 지남에 따라 평균이 갑자기 변하는 2 변량 정규 분포를 사용할 수 있습니다.
조건을 명확하게 선택하십시오-일반 데이터에 가장 적합한 모델을 선택하십시오. 데이터가 정상임을 알고 있다고 가정하십시오. 당신이 모르는 것은 언제 이동 수단이 발생하는지입니다.
교대 발생 시점을 감지하는 방법. 200 번의 과거 관측으로 다시 시작할 수 있습니다.
이러한 설정을 기반으로 분류기의 평균 오류, 알고리즘이 변경이 발생하고 업데이트되었는지 감지하는 데 걸리는 평균 시간을 계산할 수 있어야합니다. 최악의 시나리오와 95 %의 확률 수준을 보장 할 수 있습니다.

이제이 시나리오가 더 명확 해졌습니다. 모든 세부 사항을 수정하여 문제를 격리 할 수있었습니다. 분류기의 평균 오차를 알고 있습니다. 변경이 발생했음을 감지하는 데 걸리는 일 수를 예상 할 수 있습니다. 이것이 변경되는 매개 변수와 같은 매개 변수를 추론하십시오. 이제 무언가를 기반으로 실용적인 솔루션을 만듭니다. 그러나 가장 중요한 것은이 결과 (정확하게 계산 된 경우)가 변하지 않는다는 것입니다. 그것은 영원히 여기 있으며 누구나 배울 수 있습니다.

현대 기계 학습의 아버지 중 하나 인 Jürgen Schmidhuber는 다음과 같이 말합니다.

휴리스틱은왔다 갔다 – 정리는 영원을위한 것이다.

다른 분야의 교훈

또한 물리학과 비슷한 점을 간단히 언급하고 싶었습니다. 나는 그들이이 딜레마를 가지고 있었다고 생각합니다. 물리학 자들은 무한 공간 안에서 움직이는 무한 질량의 마찰없는 물체를 연구하고있었습니다. 언뜻 보면 눈송이가 바람 속에서 어떻게 움직이는 지 알고 싶은 현실에 대해 무엇을 알려줄 수 있습니까? 그러나 이론은 그것들을 꽤 먼 길로 인도 한 것처럼 느낍니다.

— 카롤리스 쿤세 비치 우스
소스

2

제 생각에 ML 결과를 해석하는 능력이 가장 중요한 몇 가지 이유를 언급했습니다. 인공 지능 기반 부동산 경비원이 이웃의 개를 쏘기로 결정했다고 가정 해 봅시다. 왜 그렇게했는지 이해하는 것이 중요합니다. 앞으로 이러한 일이 발생하지 않도록하려면 최소한 누가 책임을지고 누가 소유자 보상금을 지불 할 것인지 이해해야합니다.

그러나 나에게 가장 중요한 이유는 알고리즘의 기본 원리를 이해하면 한계를 이해하고 성능을 향상시킬 수 있다는 것입니다. ML에서 유클리드 거리의 사용을 고려하십시오. 많은 클러스터링 알고리즘에서 예제 간의 거리 정의부터 시작하여 근접성을 그룹화하는 예제 기능 간의 경계를 계속 찾으십시오. 피처 수를 늘리면 유클리드 거리가 어느 시점에서 작동을 멈 춥니 다. 근접 측정으로 유클리드 거리가 무한 치수 한계에서 작동하지 않는다는 것을 알고 있다면 맨해튼과 같은 다른 거리 측정법으로 전환 한 다음 작업을 계속하십시오. 실제 문제에. 이 예제와 같은 많은 예제를 찾을 수 있습니다.

— 악사 칼
소스

2

내가 전에이 주장을 들었습니다,하지만 난이 설명하는 어떤 특정의 예를 알고있다 생각하지 않는다 : 유클리드 거리와 잘 클러스터링되지 않은 일부 데이터의 예가 있지만 된다 맨하탄 거리와 잘 클러스터링?

— amoeba는 Reinstate Monica

1

@amoeba 여기 에 일반적인 참조가 있지만, 이전에는 다른 컨텍스트에서 실행했습니다. 단위 하이퍼 큐브 내부의 하이퍼 스피어 부피 비율을 보면, 하이퍼 큐브의 차원이 무한대로되면서 0으로 줄어 듭니다. 기본적으로 더 높은 차원에서 모든 볼록한 몸체는 점으로 붕괴됩니다. – 제 해석

— Aksakal

2

나는 이것이 철학적 토론이 아닌 것은 매우 어렵다고 생각합니다. 내 대답은 실제로 여기에 이미 언급 된 좋은 요점을 다시 말한 것입니다. 앤드류 겔먼 (Andrew Gelman)이 컴퓨터 과학자로 훈련받은 사람이라는 말을 인용하고 싶습니다. 나는 머신 러닝을 하는 많은 사람들이 컴퓨터 과학으로부터 온다는 인상을 받았습니다. Gelman이 2017 년 뉴욕 R 컨퍼런스에서 발표 한 이론적 통계는 적용 통계 이론 이라고합니다 .

이론은 확장 가능합니다.

이론은 어떤 것이 의미가 있고 어떤 상황에서는 그렇지 않은지를 알려줍니다. 진실에 대한 아이디어를 얻기 위해 수천 또는 수만 또는 수백만 번의 시뮬레이션을 수행하고 싶습니까? 점점 더 많은 벤치 마크 데이터 세트에 대한 경험적 비교를 원하십니까? 다소 시간이 걸리며 결과가 여전히 취약 할 수 있습니다. 또한 비교가 의미가 있다는 것을 어떻게 알 수 있습니까? 정확도가 99.5 % 인 새로운 Deep Learner가 정확도가 99.1 % 인 이전의 Deep Learner보다 실제로 우수하다는 것을 어떻게 알 수 있습니까? 어떤 이론이 여기에 도움이 될 것입니다.

나는 시뮬레이션의 열렬한 팬이며 세계를 이해하기 위해 (또는 이론을 이해하기 위해) 많이 사용하지만 이론적 기계 학습은 응용 기계 학습의 이론입니다.

— einar
소스