(깊은) 신경망이 다른 방법을 능가 할 수없는지도 학습 문제가 있습니까?


33

사람들이 SVM과 커널에 많은 노력을 기울인 것을 보았고 머신 러닝의 출발점으로 꽤 흥미로워 보입니다. 그러나 (항상) 신경망 측면에서 거의 항상 우수한 솔루션을 찾을 수 있다고 생각한다면,이 시대에 다른 방법을 시도하는 의미는 무엇입니까?

여기이 주제에 대한 제약이 있습니다.

  1. 우리는지도 학습 만 생각합니다. 회귀 및 분류.
  2. 결과의 가독성은 계산되지 않습니다. 지도 학습 문제의 정확도 만 중요합니다.
  3. 계산 비용은 고려되지 않습니다.
  4. 나는 다른 방법이 쓸모 없다고 말하지 않습니다.

3
사용 가능한 교육 데이터의 양에 대한 제한이 있습니까?
Jake Westfall

1
나는 그것을하지 않았지만 신경 네트워크를 훈련시키는 데 어려움을 겪을 것으로 예상합니다.
Mehrdad

1
구글은 지금 신경 네트워크를 사용 번역 , 지금은 생산 되지 더 호기심이 사전의 단어에 대한 단어 사용은 훨씬 더했을 브라질의 마을 이름
헨리

나는 매트릭스 완성을 사용하기위한 딥 러닝에 대해 들어 본 적이 없습니다 (딥 러닝 전에 매트릭스 완성을 사용하는 것이 일반적이지만). 이것이 계산 비용 문제 일 수 있다고 주장 할 수는 있지만 전 세계의 모든 컴퓨터가 netflix 문제로 딥 러닝 매트릭스 완성을 수행 할 수 있는지 여부도 알 수 없습니다.
Cliff AB

@CliffAB : (뺨에 반쯤 혀로 ...) 아마도 그들이 할 수 없을 수도 있다는 점은 주목할 가치가 있지만, 그들이 할 수 있는지 알지 못한다는 것은 확실하지 않습니다.)
Mehrdad

답변:


31

누군가가 DNN이 아닌 접근법을 합리적으로 선호 할 수있는 한 가지 이론적 이유와 두 가지 실용적인 이유가 있습니다.

  1. 에서 없음 무료 점심 정리 월퍼트 및 Macready는 말한다

    우리는 관련된 결과를 NFL 이론이라고 불렀습니다. 왜냐하면 알고리즘이 특정 클래스의 문제에서 잘 수행되면 나머지 모든 문제 세트의 성능이 저하되어 그 비용을 지불한다는 것을 보여주기 때문입니다.

    다시 말해서, 단일 알고리즘은 그것들을 모두 지배하지 않습니다. 벤치마킹해야합니다.

    여기서 명백한 반박은 일반적으로 가능한 모든 문제에 관심이 없으며 딥 러닝은 사람들 관심을 갖는 여러 클래스의 문제 (예 : 객체 인식)에서 잘 작동하는 것이므로 합리적인 첫 번째 / 유일한 선택입니다. 해당 도메인의 다른 응용 프로그램의 경우.

  2. 이러한 매우 심도 깊은 네트워크의 많은 부분에는 많은 양의 계산과 함께 많은 양의 데이터가 필요합니다. 500 개의 예제를 가지고 있다면 20 개의 레이어 네트워크는 결코 잘 배우지 못하지만 훨씬 간단한 모델에 적합 할 수 있습니다. 많은 양의 데이터를 수집 할 수없는 놀라운 문제가 있습니다. 반면에, 더 많은 데이터를 사용할 수있는 관련 문제를 해결하기 위해 학습을 시도하고, 전송 학습과 같은 것을 사용하여 특정 저 데이터 가용성 작업에 적응시킬 수 있습니다.

  3. 심층 신경망은 또한 비정상적인 실패 모드를 가질 수 있습니다. 사람이 거의 알아볼 수없는 변경으로 인해 네트워크가 이미지를 올바르게 분류하는 것에서 자신있게 분류하는 것을 잘못 옮길 수 있다는 논문이 있습니다 . (참조하십시오 여기 및 첨부 서류 Szegedy하여 등.) 다른 방법이에 대한보다 강력한 될 수 있습니다 (예를 들어,의 SVM에 대한 중독 공격이 있습니다 비지오, 넬슨, 그리고 Laskov으로는)하지만, 그 시험이 아니라, 기차에서 발생 시각. 반대로 극단적 인 이웃 알고리즘에 대해 알려진 (그러나 크지는 않은) 성능 한계가 있습니다. 경우에 따라 재앙 발생률이 낮 으면서 전반적인 성능이 저하되어 더 행복 할 수 있습니다.


나는 당신이 말하는 모든 것에 동의했습니다. 그러나 문제는 "계산 문제 무시"에 관한 것입니다. 즉, OP가 가정하면 무한한 샘플과 무한한 컴퓨팅 리소스가 있다고 가정합니다.
SmallChess

17
무한 계산! = 무한 샘플. 예를 들어 데이터 처리를 위해 놀랍도록 큰 클러스터에 액세스 할 수 있습니다. 그러나 실제로 일부 데이터를 수집하기 위해 수행하는 랩 실험에서는 단일 데이터 포인트의 경우 몇 시간에서 며칠 단위로 어렵고 느리고 시간이 많이 걸리며 전 세계의 모든 계산은 도움이되지 않습니다. .
매트 크라우스

2
특정 기능 추출기가있는 SVM은 CNN만큼 적대적인 입력에 취약 할 가능성이 높습니다. 기능 추출 레이어의 그라디언트를 쉽게 사용할 수 없기 때문에 찾기가 더 어렵습니다.
Dougal

1
@MattKrause가 제공하는 문제에 대한 최근의 흥미로운 실제 사례와 전송 학습을 사용하여이를 우회하려는 시도는 점진적 그물이있는 픽셀의 실제 로봇 학습
HBeel

@Dougal, 나는 또한 DNN 기능 추출기를 배우는 것이 중요한지 궁금하지만 SVM은 수동으로 만들어졌으며 인간이 주목하는 기능에 해당합니다. 팬더 예제를 교활하게 만드는 것의 일부는 적대적 예제와 일반 예제 사이의 눈에 띄지 않는 차이입니다.
Matt Krause

24

Geoff Hinton (신경망에 대한 Coursera 과정) 의 강의 재생 목록 어딘가에 두 가지 클래스의 문제에 대해 이야기하는 부분이 있습니다.

  1. 소음 이 핵심 기능인 문제
  2. 신호 가 핵심 기능인 문제 .

후자의 공간에서 신경망이 번성하지만 전통적인 통계 방법이 전자에 더 적합하다는 설명을 기억합니다. 딥 컨볼 루션 네트가 탁월한 세계의 실제 사물에 대한 고해상도 디지털 사진을 분석하면 후자가 분명하게 구성됩니다.

반면에 소음이 주요한 특징 인 경우 (예 : 50 건과 50 건의 의료 사례 관리 연구에서) 기존 통계 방법이 문제에 더 적합 할 수 있습니다.

아무도 그 비디오를 찾으면 의견을 말하면 업데이트하겠습니다.


훌륭한 답변입니다. 정확히 우리가 이미 할 수있는 일 (이미지 인식 및 텍스트 작성 등)에 대해 딥 러닝을 사용하는 이유는 직관적으로 어려울 수있는 일에 대해서는 다른 모델을 사용하는 이유가 있습니다.
Mustafa S Eisa 2019

나는 개인적으로이 답변을 가장 큰 관심으로 받아들입니다. 답변 주셔서 감사합니다.
Robin

13

두 개의 선형 적으로 완벽한 상관 변수. 1 백만 개의 숨겨진 레이어와 2 조 개의 중성자가있는 딥 네트워크가 단순한 선형 회귀를 이길 수 있습니까?

편집

내 경험상 샘플 수집은 계산보다 비쌉니다. 우리는 아마존 인스턴스를 고용하고 딥 러닝 교육을 실시한 다음 며칠 후에 다시 올 수 있습니다. 내 분야의 비용은 약 $ 200 USD입니다. 비용은 최소화됩니다. 동료들은 하루에 그 이상을 벌고 있습니다.

시료 수집에는 일반적으로 도메인 지식과 전문 장비가 필요합니다. 딥 러닝은 자연어 처리, 이미지 처리 및 인터넷에서 긁어 낼 수있는 것과 같은 저렴하고 손쉬운 액세스 데이터 세트 관련 문제에만 적합합니다.


1
물론 모든 MLE 방법은 MLE 의 가정을 충족시키는 생성 모델에서 딥 러닝 조건을 능가 합니다. 그러나 이것은 실제 데이터 또는 적어도 흥미로운 문제 (예 : 코인 플립의 결과를 예측하지 않음)에서 발생하지 않습니다. 따라서 OP는 실제 데이터에 대한 실제 관심있는 질문과 관련된 예제를 요구한다고 생각합니다.
Cliff AB

아주 좋은 대답입니다. 매우 직관적이고 현실적인 관점을 제공했습니다. 정말 고맙습니다.
Robin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.