왜 신경망과 딥 러닝을 버리지 않습니까? [닫은]


25

일반적으로 딥 러닝 및 신경망의 근본적인 문제.

  1. 교육 데이터에 적합한 솔루션은 무한합니다. 우리는 단 하나만 만족하는 정확한 수학 방정식을 가지고 있지 않으며 가장 일반적이라고 말할 수 있습니다. 간단히 말해서 우리는 어느 것이 가장 일반화되는지 모릅니다.

  2. 가중치 최적화는 볼록한 문제가 아니므로 글로벌 또는 로컬 최소값으로 끝나는 것을 결코 알 수 없습니다.

그렇다면 왜 신경망을 덤프하고 더 나은 ML 모델을 검색하지 않겠습니까? 우리가 이해하는 것과 일련의 수학 방정식과 일치하는 것이 있습니까? 선형 및 SVM에는 이러한 수학적 단점이 없으며 일련의 수학 방정식과 완전히 일치합니다. 왜 같은 라인을 생각하고 (선형이 아닐 수도 있음) 선형 및 SVM과 신경망 및 딥 러닝보다 더 나은 새로운 ML 모델을 생각해보십시오.


37
당신이 그것을 찾으면 사람들이 할 것입니다.
Matthew Drury

23
"왜 안돼 ...?" 정확히 그렇게하려고 노력하는 연구원이 얼마나 많은지 믿지 못할 것 입니다! 그들은 지금까지 성공하지 못했습니다.
Kilian Foth

31
"모든 모델이 잘못되었지만 일부는 유용합니다"및 nn은 확실히 유용합니다.
josh

15
@ RajeshDachiraju-그것은 오래된 관용구이지만 아마도 조금 모호했습니다. 당신은 왜 완벽하지 않기 때문에 왜 NN을 버리지 않느냐고 물었습니다. 나의 레토르트는 그것들이 완벽하지는 않지만 유용하다는 것입니다. 사람들은 자동차를 운전하고, 외국어를 번역하고, 비디오에 태그를 지정하고, 고래를 보존하고, 개 귀가 달린 잡다한 스냅 챗 필터를 사진에 적용하는 데 사용합니다! 예 : 그들은 작동하므로 계속 사용합니다 :)
josh

13
뉴턴 역학의 문제도 잘 알고 있습니다. 양자 역학. 상대성. 모든 물리학이 잘못되었습니다 (모든 것을 설명하는 단일 모델이 없으며 모두 결함이 있습니다). 화학은 많은 것들로 완전히 잘못되었습니다 (원자를 묘사하는 것은 항상 좋은 근사이지만 결코 정확한 것은 아닙니다). 세상에서 유일하게 진실한 것은 수학입니다. 순수한 수학. 다른 모든 것은 정답에 가깝습니다. 나머지는 버려야할까요? (컴퓨터에서 시작하여 잘못된 법률로 구축 되었습니까?). 다시. 모든 모델이 잘못되었지만 일부 모델이 유용합니다.
Mayou36

답변:


48
  1. 어떤 솔루션이 가장 일반화되는지 알 수없는 것이 문제이지만 좋은 솔루션을 사용하는 것을 방해해서는 안됩니다. 인간은 종종 일반화가 무엇인지 가장 잘 알지 못하지만 (예를 들어, 물리학 통일 이론과의 경쟁 고려) 그렇게 많은 문제를 일으키지는 않습니다.

  2. 지역 최소값으로 인해 훈련이 실패하는 경우는 매우 드물다는 것이 밝혀졌습니다. 심층 신경망에서 로컬 최소값의 대부분은 글로벌 최소값에 가깝기 때문에 문제가되지 않습니다. 출처

그러나 더 넓은 대답은 비 볼록성과 모델 선택에 대해 하루 종일 이야기 할 수 있으며 사람들은 다른 것보다 더 잘 작동하기 때문에 신경망을 계속 사용한다는 것입니다 (적어도 이미지 분류와 같은 것에서는).

물론 수십 년 전에 커뮤니티가 SVM에 중점을 둔 것처럼 CNN에 너무 집중해서는 안되며 대신 다음 큰 것을 계속 찾고 있다고 주장하는 사람들도 있습니다. 특히, 나는 Hinton이 CNN의 효과를 연구를 방해 할 수있는 것으로 후회 한 것을 기억한다. 관련 게시물


1
나는 마지막 단락을 특히 좋아합니다.
Rajesh Dachiraju 4

10
포인트 # 2에 대한 인용이 있습니까?
DrMcCleod

@DrMcCleod : 나에게 포인트 2는 징코와 비슷해 보입니다. 더 가벼운 의미에서.
Rajesh Dachiraju

6
@ DrMcCleod 로컬 최소값이 글로벌 최소값에 매우 가깝고 대신 새들 포인트가 문제임을 시사하는 많은 작업이 있습니다. 참조 안장 포인트의 토론과 종이를 지역의 최소값이 반드시 나쁜 이유 종이.
jld

1
나는 단지 하나의 극장을 선호합니다. 그러나 내가보고 싶은 영화만큼이나 거의 모든 영화를 즐길 것이라고 알고 있다고 가정 해 봅시다. 그런 다음 10 개의 극장이있을 때 실망하지 않을 것입니다. 극장과 영화가 마음에 들기 때문에 무작위로 하나를 선택해야합니다.
shimao

14

귀하의 질문에 대한 의견에서 알 수 있듯이 더 나은 것을 찾는 데 많은 사람들이 노력하고 있습니다. @josh가 남긴 주석을 확장 하여이 질문에 대답하고 싶습니다.


모든 모델이 잘못되었지만 일부는 유용합니다 (Wiki)

위의 진술은 통계 모델의 특성을 설명하는 데 사용되는 일반적인 사실입니다. 사용 가능한 데이터를 사용하여 대략적인 예상 값과 같은 유용한 작업을 수행 할 수있는 모델을 만들 수 있습니다.

예를 들어 선형 회귀

여러 관측 값을 사용하여 독립 변수에 대한 값이 주어지면 종속 변수에 대한 대략적인 값을 제공하기 위해 모형을 적합시킬 수 있습니다.

번햄, KP; Anderson, DR (2002), 모델 선택 및 다중 모델> 추론 : 실용적인 정보 이론적 접근 (2 차 개정판) :

"모델은 현실의 단순화 또는 근사치이므로 모든 현실을 반영하지는 않습니다. ... Box는"모든 모델이 잘못되었지만 일부는 유용합니다. "라고 언급했습니다. "매우 유용하고, 유용하고, 다소 유용하며, 본질적으로 쓸모없는 것으로 순위가 매겨집니다."

위의 이미지에서 볼 수 있듯이 모델의 편차는 무작위로 표시되고 일부 관측치는 선 아래에 있고 일부는 위에 있지만 회귀선은 일반적인 상관 관계를 보여줍니다. 우리 모델의 편차는 무작위로 보이지만 실제 시나리오에서는이 편차를 일으키는 다른 요인이 있습니다. 예를 들어, 계속 진행하기 위해 왼쪽이나 오른쪽으로 회전해야하는 정션을 통해 자동차를봤을 때 자동차는 특정 패턴으로 회전하지 않는다고 상상해보십시오. 우리는 자동차가 회전하는 방향이 완전히 무작위라고 말할 수 있지만 모든 운전자가 정션에 도달하고 그 시점에서 어떤 방향으로 회전할지 무작위로 결정합니까? 실제로 그들은 아마도 특정한 이유로 특정한 곳으로 향하고있을 것입니다. 그리고 각 자동차가 그들의 추론에 대해 묻기 위해 멈추지 않고, 우리는 그들의 행동을 무작위로만 묘사 할 수 있습니다.

편차가 최소 인 모델을 적합화할 수있는 곳에서 알려지지 않거나 알 수 없거나 측정 할 수없는 변수가 모델을 던지는 시점이 얼마나 확실합니까? 브라질의 나비 날개 덮개가 텍사스에서 토네이도를 시작 했습니까?

언급 한 Linear 및 SVN 모델을 사용할 때의 문제는 변수를 수동으로 관찰하고 서로 영향을 미치는 방식이 다소 필요하다는 것입니다. 그런 다음 중요한 변수를 결정하고 작업 별 알고리즘을 작성해야합니다. 변수가 몇 개만 있으면 간단 할 수 있지만 수천 개가 있으면 어떻게 될까요? 일반화 된 이미지 인식 모델을 만들려면이 방법으로 현실적으로 달성 할 수 있습니까?

딥 러닝 및 인공 신경망 (ANN)은 많은 양의 변수 (예 : 이미지 라이브러리)를 포함하는 방대한 데이터 세트에 유용한 모델을 만드는 데 도움이됩니다. 언급했듯이 ANN을 사용하여 데이터에 맞출 수있는 이해할 수없는 솔루션이 있지만이 숫자는 시행 착오를 통해 자체 개발 해야하는 솔루션의 양과 실제로 다른가요?

ANN의 적용은 우리를 위해 많은 작업을 수행하며, 입력과 원하는 출력을 지정하고 (나중에 조정하여 개선) 솔루션을 파악하기 위해 ANN에 맡길 수 있습니다. 그렇기 때문에 ANN이 종종 "블랙 박스" 로 설명됩니다 . 주어진 입력에서 근사값을 출력하지만 (일반적으로) 이러한 근사값은 근사값에 대한 세부 사항을 포함하지 않습니다.

따라서 어떤 모델 접근 방식이 더 유용한 지에 따라 문제가 해결되므로 실제로 해결하려는 문제가 발생합니다. 모델이 절대적으로 정확하지는 않으므로 항상 '잘못된'요소가 있지만 결과가 정확할수록 더 유용합니다. 근사화 방법에 대한 결과에 더 자세히 설명하면 문제에 따라 정확도가 향상되는 것보다 더 유용 할 수도 있습니다.

예를 들어 개인 신용 점수를 계산하는 경우 회귀 및 SVM을 사용하면 더 잘 탐색 할 수있는 계산을 제공합니다. 모델을 직접 조정하고 고객에게 개별 독립 변수가 전체 점수에 미치는 영향을 설명 할 수 있기 때문에 매우 유용합니다. ANN은보다 정확한 점수를 얻기 위해 많은 양의 변수를 처리하는 데 도움이 될 수 있지만이 정확도가 더 유용할까요?


6
당신은 몇 가지 좋은 점을 지적하지만 "많은 경우에 우리의 관찰과 예측이 적합 선상에 정확하게 위치하지 않을 것"이라는 사실은 "모든 모델이 잘못되었다"는 슬로건의 적절한 시연이 아닙니다. 선형 회귀 분석에서 우리는 E (Y | X)를 모델링하므로 정확하게 선 위에 있지 않은 점은 모델의 결함을 나타내지 않습니다. 무작위성은 미리 지정되고 예상됩니다. 적합 선과의 편차가 관찰 될 때 모형이 "잘못된"것이 아닙니다.
klumbard

@klumbard 댓글 주셔서 감사합니다. 나는 이것을 예제로 사용하는 이유를 설명하는 내 답변을 더 자세히 업데이트했습니다. 나는 내 대답에 더 철학적 접근법을 취하고 구체적인 것보다 더 일반적인 용어로 말했는데, 이것은이 커뮤니티의 첫 번째 게시물이므로 그렇게 할 수 없다면 사과드립니다. 구체적인 내용에 대해 잘 알고있는 것 같습니다. 의견을 좀 더 자세히 설명해 주시겠습니까? 내가 가진 질문은 편차가 결함을 나타내지 않는 곳에서 0.01의 R- 제곱을 가진 회귀 모형도 "잘못된"것이 아닌가하는 것입니다.
Carrosive

2
귀하의 게시물에 대한 나의 유일한 문제는 "... 많은 경우에 우리의 관찰과 예측이 적합 선에 정확하게 위치하지 않기 때문입니다. 이것은 종종 우리 모델이 '잘못'됩니다 ..." . 단순히 모델의 사양에 오류 항이 포함되어 있기 때문에 관측 된 데이터가 적합 선에 속하지 않는다는 사실 (단독)은 모델 "잘못된"을 나타내지 않습니다. 이것은 미묘한 의미 론적 구분처럼 보일 수 있지만 중요하다고 생각합니다.
klumbard

1
당신이 다루는 두드러진 요점은 기능적 형태의 잘못된 지정뿐만 아니라 변수 바이어스가 생략되어 모든 모델이 잘못되었다는 것입니다. 회귀 모형을 기록하고 추정치에 대한 추론을 수행 할 때마다 모형을 올바르게 지정했다고 가정합니다.
klumbard

1
@klumbard 오, 지금 어디에서 왔는지 알 수 있습니다. 따라서 모형이 완전히 정확하지는 않은 추정치를 생성하지만 실제 값이 추정치에서 얼마나 벗어날 수 있는지를 나타 내기 위해 오차 항을 측정 할 수 있으므로 모형이 본질적으로 잘못되었다고 말하는 것은 잘못된 것입니다. 나는 그 부분을 내 대답에서 빼낼 것이며, 그 요점은 그 후에 추가 한 부분에서 더 잘 설명되어 있다고 생각합니다. 설명해 주셔서 감사합니다 :)
Carrosive

8

전 세계 최소값은 쓸모 없을 수도 있고 쓸모 없을 수도 있기 때문에 우리는 그것을 찾는 지 상관하지 않습니다. 그 이유는 딥 네트워크의 경우네트워크 크기가 증가함에 따라 검색 시간이 기하 급수적으로 길어질뿐만 아니라 전체 최소값은 종종 훈련 세트를 과도하게 맞추는 것에 해당합니다. 따라서 DNN의 일반화 능력 (실제로 우리가 관심을 갖는 것)은 어려움을 겪을 것입니다. 또한, 우리는 종종 손실 함수 값이 낮을수록 더 작은 손실 함수 값에 해당하는 더 작은 최소값을 선호합니다. 두 번째 값은 입력의 불확실성을 매우 심각하게 처리하기 때문입니다. 이것은 베이지안 딥 러닝의 발전과 함께 점점 더 분명 해지고 있습니다. 강력한 최적화는 불확실성이 중요한 실제 문제에 적용될 때 결정 론자 최적화를 매우 능가합니다.

마지막으로 DNN은 이미지 분류 및 NLP에서 XGBoost와 같은 방법을 사용합니다. 이미지 분류에서 이익을해야합니다 회사는 올바르게 모델이 생산에 배포 할로를 선택 (것이다 기능 공학, 데이터 파이프 라인 등에 상당한 금액을 투자하지만 난 빗나가 다). 그렇다고해서 모든 ML 환경을 지배한다는 의미는 아닙니다. 예를 들어, 구조화 된 데이터에서 XGBoost보다 더 나쁘고 (Kaggle 경쟁의 마지막 승자를 참조하십시오) 시계열 모델링의 입자 필터는 아직 수행하지 않는 것 같습니다. 그러나 RNN에 대한 최근의 일부 혁신으로이 상황이 수정 될 수 있습니다.


2
정말? 공감? 그것은 조금 불청객입니다. 합리적인 답변입니다 (+1).
usεr11852는 Reinstate Monic이

5
@RajeshDachiraju 내가 알거나 알지 못하는 것을 추측하려고하기 때문에 신경망과 볼록하지 않은 최적화에 대해 더 많이 이해하고 일상적으로 이야기하는 사람들을 배우는 데 관심이있을 것입니다. 신경망에 대한 단일 글로벌 최소. 이 용어를 사용하여 종이의 거대한 더미 사이에서, 당신은 읽기 시도 할 수 이 일을 당신이 어디있는 거 잘못 이해하는 경우를 참조하십시오.
DeltaIV

2
@RajeshDachiraju : 많은 사람들이 귀찮게하지 않을 이유를 설명해 주셔서 감사합니다. 즉, 당신의 이것에 대한 당신의 추론은 결함이 있고 매우 특별한 문구를 잘못 해석하는 데 기인한다고 생각합니다. 본인은이 표준 용어 인 DeltaIV에 동의합니다.
usεr11852는

1
@ DeltaIV : 내 요점은 훈련 데이터에서 손실이 0 인 여러 가중치 벡터가있을 수 있다는 것입니다 (물론 아키텍처를 일정하게 유지 함). 훈련의 요점은 무게 벡터를 얻는 것입니까? 그래서 나는 당신에 동의하지 않습니다. 이러한 가중치 벡터 중 하나가 매우 유용합니다. 그러나 나는이 대화에 동의하지 않고이 대화를 끝내기로 동의합니다. 감사합니다 Rajesh
Rajesh Dachiraju

1
@RajeshDachiraju 예,있을 수 있으며, 훈련 세트 매우 낮은 일반화 능력에 과도하게 맞추는 것에 해당하기 때문에 모두 똑같이 쓸모없고 흥미롭지 않습니다. NN을 사용할 때 손실 함수의 훈련 세트에 대한 전 세계 최소값에 대해 신경 쓰지 않는 이유를 아주 잘 설명합니다. 또한 NN에서 과적 합 방지에 관한 자료가 유용 할 수 있습니다.
DeltaIV

7

이 질문에 대해 생각하는 가장 좋은 방법은 경쟁 시장을 통한 것이라고 생각합니다. 딥 러닝을 버리고 경쟁 업체가이를 사용하고 사용했던 것보다 잘 작동하면 시장에서 우위를 점하게됩니다.

나는 그것이 오늘날 부분적으로 일어나고있는 일이라고 생각합니다. 즉, 딥 러닝은 시장에서 발생하는 많은 문제에 대해 무엇보다 효과적입니다. 예를 들어, 딥 러닝을 사용하는 온라인 언어 번역가 는 이전에 사용되었던 순수 언어 접근 방식보다 낫습니다. 불과 몇 년 전만해도 그렇지 않았지만 딥 러닝의 발전으로 시장에서 주도적 인 위치에있는 사람들을 데려 왔습니다.

"시장"을 계속 반복하고 있습니다. 그것이 현재 딥 러닝 분야에서 급증하고있는 이유입니다. 비즈니스가 유용한 것을 발견 한 순간, 무언가가 널리 퍼질 것입니다. 딥 러닝이 대중화되어야한다고 결정한 것은위원회 아닙니다 . 비즈니스와 경쟁입니다.

두 번째 부분은 ML의 실제 성공 외에도 보트를 놓칠 염려가 있다는 것입니다. AI를 놓치면 비즈니스로 실패 할 것이라는 많은 기업들이 편집증에 빠졌습니다. 이 모든 두려움은 가트너 등의 모든 컨설팅 업체들에 의해 제공되고 있으며 , CEO들에게 AI를하거나 내일 죽어야한다고 속삭 이면서 속삭였다.

아무도 기업이 딥 러닝을 사용하도록 강요하지 않습니다. IT와 R & D는 새로운 장난감으로 흥분됩니다. 아카데미아의 응원, 그래서이 파티는 음악이 멈출 때까지, 즉 딥 러닝이 중단 될 때까지 지속됩니다. 그 동안 덤프하여 더 나은 솔루션을 얻을 수 있습니다.


학술 연구 자금은 어떻습니까? 그것에 약간의 빛을 비출 수 있습니까?
Rajesh Dachiraju

2
많은 자금이 업계에서 나옵니다. 업계에서 가장 많은 돈을 얻는 교수는 학계에서 가장 영향력있는 교수입니다. 대학은 회사에서 얻은 엄청난 돈을 빼앗아이 교수들을 사랑합니다. NYT 기사 를 읽으면 학계와 업계의 열풍에 대한 아이디어를 얻을 수 있습니다
Aksakal

시장에 대한 아주 좋은 언급 (+1) : 나는 똑같이 말했다. 그러나 나는 편집증에 약간 동의하지 않습니다. Waymo가 Tesla, Audi 및 현재 이름을 기억할 수없는 다른 자동차 제조업체를 이길 수 있다는 사실은 편집증이 아닌 것이 사실입니다. 아우디는 확실히, 그들은 만약 ... SIFT와 SURF에게 (깊은 학습에 관련된 어떠한 방식에 잘 테스트 컴퓨터 비전 기술)를 사용할 수도
DeltaIV

... 원합니다. 이미지 분류와 관련하여 SIFT, SURF 및 기타 지오메트리 기반 방법에 대한 DL의 우수성은 5 년간의 견고한 학술 및 산업 연구에서 입증 된 사실입니다. 확실히 만병 통치약은 아니며 (IBM Watson의 실패 참조), 과대 광고가 있지만 단단하고 차가운 사실도 있습니다.
DeltaIV

2
@DeltaIV ML은 일부 응용 프로그램에서 확실히 작동하지만 오늘날의 광범위한 채택은 편집증과 과대 광고 때문이라고 생각합니다. CTO가 효과가 있든 없든 상관 없습니다. 1 년 전에 내가 무슨 말을했는지 전혀 모르는 친구가 있습니다. 이제 AI가 미래라고 말하고 구현 등을 시작할 것입니다.
Aksakal

4

DL과 ANN의 유용성에 중점을 둔 훌륭한 답변이 있습니다. 그러나 신경망의 수학적 불일치가 이미 당연히 받아 들여지기 때문에 OP를보다 근본적인 방식으로 반대하고 싶습니다.

우선, 거기 이다 뒤에 수학적 이론 (대부분의 모델) 신경망은. 기본 모델이 ... 선형 적이 지 않으면 선형 회귀 분석이 일반화되지 않는다고 주장 할 수 있습니다. 신경 알고리즘에서 모델은 (명시 적이 지 않더라도) 가정되고 피팅 오차가 계산됩니다. 알고리즘이 다양한 휴리스틱으로 수정된다는 사실이 원래의 수학 지원을 무효화하지 않습니다. BTW, 로컬 최적화는 유용한 이론은 물론 수학적으로 일관성이 있습니다.

이 선을 따라 신경망이 과학자의 전체 도구 상자 내에서 한 클래스의 방법을 구성하는 경우 신경망을 다른 기술과 분리하는 선은 무엇입니까? 실제로 SVM은 한때 NN 클래스로 간주되어 여전히 같은 책에 나타납니다. 다른 한편으로, NN은 (비선형) 회귀 기법으로 간주 될 수 있으며, 일부 단순화가 가능합니다. NN으로 레이블을 지정했는지 여부에 관계없이 더 잘 설립되고 효율적인 알고리즘을 검색해야한다는 OP에 동의합니다.


일관성이없는 문제는 다음과 같은 간단한 질문을 할 수 없다는 것입니다. 언제 훈련을 중단하고 포기해야합니까? 또한 'Dropot', 'weight decay', 'ReLu'및 다양한 활성화, 배치 정규화, 최대 풀링, softmax, 조기 중지, 다양한 학습 속도 일정 및 이들의 모든 순열 및 조합과 같은 많은 소문이 디자이너를 항상 의심하게 만듭니다. 포기할지 말지
Rajesh Dachiraju

1
@RajeshDachiraju 외부 포인트 최적화 알고리즘의 페널티 계수 또는 Runge-Kutta 방법의 단계 크기에 대해서도 마찬가지입니다. "일관되지 않음"이라는 단어는 과학에서 여기에 적용되지 않는 정확한 의미를 갖습니다.
Miguel

0

나는 어떤 문제에 대해서는 수학적 엄격함과 단순성에 대해서는 신경 쓰지 않지만 유틸리티에 대해서는 더 많은 것으로 생각합니다. 현재 상태는 신경망이 이미지 처리의 패턴 인식과 같은 특정 작업을 수행하는 데 더 좋습니다.


0

이 질문에는 많은 것이 있습니다. 당신이 쓴 것을 하나씩 살펴 보자.

교육 데이터에 적합한 솔루션은 무한합니다. 우리는 단 하나만 만족하는 정확한 수학 방정식을 가지고 있지 않으며 가장 일반적이라고 말할 수 있습니다.

많은 문제가 무한히 존재한다는 사실은 학습 문제가 잘못 제기 된 문제라는 점에서 비롯된 것이므로, 가장 일반화 할 수있는 단일 문제는있을 수 없습니다. 또한 무료 점심 정리를 사용하지 않아도 우리가 사용하는 방법이 모든 학습 문제에서 최고라고 보장 할 수는 없습니다.

간단히 말해서 우리는 어느 것이 가장 일반화되는지 모릅니다.

이 진술은 사실이 아닙니다. 샘플 수, 학습 방법의 VC 차원 및 일반화 오류를 연결하는 Vapnik & Chervonenkis의 경험적 위험 최소화에 대한 이론이 있습니다. 이는 주어진 데이터 세트에만 적용됩니다. 따라서 데이터 세트와 학습 절차가 주어지면 일반화의 한계를 알 수 있습니다. 서로 다른 데이터 세트의 경우 무료 점심 정리가 없기 때문에 최상의 단일 학습 절차가 없으며 단일 학습 방법이 될 수 없습니다.

가중치 최적화는 볼록한 문제가 아니므로 글로벌 또는 로컬 최소값으로 끝나는 것을 결코 알 수 없습니다. 그렇다면 왜 신경망을 덤프하고 더 나은 ML 모델을 검색하지 않겠습니까?

명심해야 할 것이 몇 가지 있습니다. 볼록하지 않은 문제를 최적화하는 것은 볼록한 문제만큼 쉽지 않습니다. 사실입니다. 그러나 볼록한 학습 방법 클래스는 제한적이며 (선형 회귀, SVM) 실제로 다양한 문제에서 볼록하지 않은 클래스 (부스팅, CNN)보다 성능이 떨어집니다. 따라서 중요한 부분은 실제로 신경망이 가장 잘 작동한다는 것입니다. 신경망을 잘 작동시키는 여러 가지 중요한 요소가 있지만 :

  1. 확률 적 경사 하강으로 인해 매우 큰 데이터 세트에 적용 할 수 있습니다.
  2. SVM과 달리 딥 넷을 사용한 추론은 데이터 집합에 의존하지 않습니다. 이것은 시험 시간에 신경망을 효율적으로 만듭니다.
  3. 신경망을 사용하면 더 많은 레이어를 추가하거나 더 크게 만들어 학습 용량 (매개 변수 수를 생각할 수 있음)을 직접 제어 할 수 있습니다. 다른 데이터 세트의 경우 더 크거나 작은 모델을 원할 수 있기 때문에 이것은 중요합니다.

우리가 이해하는 것과 일련의 수학 방정식과 일치하는 것이 있습니까? 선형 및 SVM에는 이러한 수학적 단점이 없으며 일련의 수학 방정식과 완전히 일치합니다. 왜 같은 라인을 생각하고 (선형이 아닐 수도 있음) 선형 및 SVM과 신경망 및 딥 러닝보다 더 나은 새로운 ML 모델을 생각해보십시오.

이해하지 못해 작동하는 것을 버리는 것은 훌륭한 연구 방향이 아닙니다. 반면에 그것들을 이해하려고 노력하는 것은 훌륭한 연구 방향입니다. 또한, 신경망이 수학 방정식과 일치하지 않는다는 것에 동의하지 않습니다. 그것들은 꽤 일관성이 있습니다. 우리는 그것들을 최적화하고 추론을 수행하는 방법을 알고 있습니다.


-2

실험적인 관점에서 신경망을 보는 것은 어떻습니까? 우리가 그것들을 만들었다 고해서 그것들을 직관적으로 이해해야한다는 것을 의미하지는 않습니다. 또는 그들이하는 일을 더 잘 이해하기 위해 그들과 놀아서는 안됩니다.

여기에 몇 가지 생각이 있습니다.

  • 구조 : 계층 구조입니다. 그것들은 입력을 공유하는 나무와 같습니다. 뿌리는 입력이고 잎은 출력 레이어입니다. 레이어가 출력에 가까울수록 더 관련성이 높을수록 더 높은 추상화 레벨이 포함됩니다 (픽셀보다 그림에 더 가깝습니다).
  • 기능성 : 데이터로 "재생"하고, modus operandi는 "클릭"(오류 마진이 허용 될 때까지) 뉴런 (가중치)의 관계를 실험합니다.

이것은 우리의 생각과 일치합니다. 과학적 방법이 작동하는 방식과도 일관됩니다. 따라서 신경망을 크래킹함으로써 지식이 무엇을 나타내는 지에 대한 일반적인 문제를 해결할 수도 있습니다.


-3

LM, GLM, 다단계 모델링을 사용하는 방대한 연구 분야가 있다는 것을 잊지 마십시오. 최근 Bayesian 기법과 Hamiltonian Monte Carlo (STAN 커뮤니티가이 분야의 최전선에 있음)가 생겨나 고 STAN에 의해 해결되는 수많은 문제가 실제로 쉽게 발생하고 실제로 NN이나 딥넷이 필요하지 않습니다. 사회 과학 연구, 미시 경제학은 Stan을 빠르게 채택하는 분야의 두 가지 예입니다.

Stan 모델은 매우 "판독 가능합니다". 계수는 실제로 사후 분포 해석을 가지며 예측도 마찬가지입니다. 선행 사항은 데이터 생성 프로세스의 일부이며 수행자 (기브와 같은)를 수행하기 위해 켤레 일 필요는 없습니다. 스탠의 모델 피팅은 기쁨입니다. 실제로 성가신 MCMC 매개 변수를 자동으로 잘 조정하고 탐험이 정말 멋진 시각화로 고착되면 경고합니다.

시도하지 않은 경우 이미 멋진 스탠 데모를 참조 하십시오 ).

하루가 끝날 무렵 나는이 분야에 대한 연구와 문제가 NN과 같이 "섹시"/ "쿨"하지 않기 때문에 사람들이이 주제에 대해 너무 많이 이야기하지 않는다고 생각합니다.


-5

수학적 일관성 (이 경우 신경망의 경우 가장 적음)이 없을 때 일반적으로 발생하는 상황 ... 테스트 결과에서 원하는대로 결과를 제공하지 않을 경우, 상사가 돌아와서 말합니다. 드롭 아웃 (수학적 방법이 없기 때문에 어떤 무게, 어떤 층, 두통이 몇 개입니까)을 시도하십시오. 따라서 희망적으로 개선하지 않았지만 희망적으로 개선되지 않은 후에는 상사가 돌아와서 왜 말할 것입니까? 체중 감량을 시도하지 마십시오 (어떤 요인?) 나중에 일부 레이어에서 ReLU 또는 다른 활성화를 시도해 보지 않더라도 여전히 'max pooling'을 시도하지 않겠습니까? 그래도, 배치 정규화를 시도하거나, 수렴을 유지하지 않거나, 수렴을 최소화하지만, 원하는 결과를 얻지 않는 이유는 무엇입니까? 네트워크 아키텍처 만 변경 하시겠습니까? 다른 조합으로 위의 모든 것을 반복하십시오! 성공할 때까지 계속 반복하십시오!

반면에 일관성있는 SVM을 시도 할 때 수렴 후 결과가 좋지 않으면 데이터가 선형이 아닐 수 있으므로 사용중인 선형 커널이 충분하지 않습니다. 다른 모양의 커널을 사용하십시오. 만약 당신이 아직 직감이 없다면 다른 모양의 커널을 남겨두고 SVM의 한계를 남겨둔다.

내가 말하고있는 것은 신경망이 너무 일관성이 없어서 틀린 것이 아니라는 것입니다! 패배를 받아들이지 않습니다! 엔지니어 / 디자이너가 원하는대로 작동하지 않는 경우 부담을가집니다.


3
이것은 귀하의 질문에 대한 답변을 포함하지 않는 것 같습니다. 삐걱 거리는 소리처럼 들리지 않도록 편집하고 신경망과 딥 러닝이 ML 모델 (원래 질문 인 것처럼 보이는)보다 더 유용한 이유를 어떻게 설명 할 수 있다고 생각하십니까?
Silverfish

1
그의 요점은 SVM을 통해 할 수있는 것과 할 수있는 일을 알고 있지만 NN을 통해 알 수 없다는 것입니다. 의심 할 여지없이 DL이 쉽게 속이기 때문에 오류와 같은 메트릭조차 모델이 실제로 얼마나 잘 수행하고 있는지 알려주지 않습니다.
yters

1
@yters, 그렇지만 silverfish의 의견은 이것이 DL을 덤프하지 않는 이유에 대한 대답이 아니라는 것입니다. 질문을 다시 언급하는 것에 더 가깝습니다. 질문과 함께 병합하는 것이 좋습니다.
P.Windridge
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.