딥 러닝 접근 방식의 문제 및 대안?


17

지난 50 년 동안 신경망의 인기 상승 / 하강은 인공 지능 연구의 '기압계'의 역할을 해왔습니다.

이 사이트의 질문에서 사람들이 다양한 어려운 문제에 딥 러닝 (DL)을 적용하는 데 관심이 있다는 것은 분명합니다.

따라서 두 가지 질문이 있습니다.

  1. 실무자-문제에 DL '즉시 사용'을 적용하는 데 주된 장애물은 무엇입니까?
  2. 연구원-실제 문제를 해결하는 데 도움이되는 어떤 기술을 사용하거나 개발 했습니까? 그들은 DL 내에 있습니까 아니면 대안적인 접근법을 제공합니까?

3
두 가지 질문이 있으면 두 가지 질문을해야합니다.
bpachev

1
그들은 분명히 서로 관련되어 있습니다.
NietzscheanAI

답변:


5

요약하자면, 응용 딥 러닝에는 두 가지 주요 문제가 있습니다.

  • 첫 번째는 계산적으로 철저합니다. 일반 CPU는 딥 러닝으로 기본 계산 / 훈련을 수행하는 데 많은 시간이 필요합니다. 그러나 GPU는 권장되지만 많은 상황에서 충분하지 않을 수도 있습니다. 일반적인 딥 러닝 모델은 다항식의 이론적 시간을 지원하지 않습니다. 그러나 동일한 작업에 대해 ML에서 비교적 간단한 모델을 보면 너무 간단한 알고리즘에 필요한 훈련 시간이 다항식이라는 수학적 보장이 너무 자주 있습니다. 이것은 나에게 적어도 가장 큰 차이 일 것입니다.

    그러나이 문제를 해결할 수있는 솔루션이 있습니다. 하나의 주요 접근법은 DL 알고리즘을 여러 반복으로 만 최적화하는 것입니다 (실제로 글로벌 솔루션을 보는 대신 알고리즘을 우수한 로컬 솔루션으로 최적화하는 반면 "Good"에 대한 기준은 사용자가 정의 함).

  • 젊은 딥 러닝 애호가들에게는 약간 논란이 될 수있는 또 다른 문제는 딥 러닝 알고리즘에는 이론적 인 이해와 추론이 없다는 것입니다. Deep Neural Networks는 손글씨 인식, 이미지 처리,자가 운전 차량, 신호 처리, NLP 및 생체 의학 분석을 포함한 많은 상황에서 성공적으로 사용되었습니다. 이러한 경우 중 일부는 심지어 인간을 능가했습니다. 그러나 그것은 이론적으로 대부분의 통계 방법만큼 건전한 상황에 있지 않습니다.

    나는 자세하게 설명하지 않고 오히려 그것을 당신에게 맡깁니다. 모든 알고리즘 / 방법론에 장단점이 있으며 DL도 예외는 아닙니다. 많은 상황에서 입증 된 것처럼 매우 유용하며 모든 젊은 데이터 과학자는 적어도 DL의 기본 사항을 배워야합니다. 그러나 비교적 간단한 문제의 경우 유명한 통계적 방법을 사용하는 것이 좋습니다. 이론적 결과 / 보증자가이를 지원하기 때문에 많은 통계적 방법을 사용하는 것이 좋습니다. 또한 학습 관점에서 간단한 접근 방식으로 시작하여 먼저 마스터하는 것이 좋습니다.


'다항식'이란 '다항식 시간'을 의미합니다. 이를 지원하기위한 참고 자료가 있습니까?
NietzscheanAI

그렇습니다. 정확히 제가 의미하는 바입니다. 물론, 그것은 많은 상황에서 증명 될 수 있습니다 ... 나는 가장 간단한 가능한 예부터 시작할 것입니다. 단지 3 개의 노드로 네트워크를 훈련하면 2 개의 레이어는 여기에 표시된 것처럼 NP-Complete 문제입니다 ( citeseerx.ist.psu. edu / viewdoc /… ). 이 백서는 매우 오래되었으며, 이제 휴리스틱을 사용하여 실제로 개선하는 방법에 대한 더 많은 아이디어가 있지만 이론적으로는 개선 된 결과가 없습니다.
Sibghat Ullah

같은 문제에 대한 다른 좋은 기사도 실제로 훈련 시간을 향상시키는 몇 가지 요령을 설명합니다. ( pdfs.semanticscholar.org/9499/… )
Sibghat Ullah

우리는 무언가의 가격을 예측하고 싶다고합시다. 최소 제곱 적합을 갖는 단순 선형 회귀는 다항식 시간을 가지지 만 신경 네트워크에서 동일한 문제를 해결하면 (가장 단순한 것조차도) NP 전체 문제가 발생합니다. 이것은 매우 큰 차이입니다. 결국 특정 작업에 대한 알고리즘을 신중하게 선택해야합니다. 예를 들어, 최소 제곱 적합에는 "알고리즘이 학습하는 이상적인 기능을 기능의 선형 조합으로 학습 할 수 있습니다"를 포함하는 특정 가정이 있습니다. 해당 가정이 유효하지 않으면 결과도 달성됩니다.
Sibghat Ullah

물론, 문제 (이 경우 최적의 무게를 찾는 것)가 NP- 완료이기 때문에 그 자체로 좋은 무게 를 찾는 효과적인 실용적인 방법이 없다는 것을 의미하지는 않습니다 ...
NietzscheanAI

5

ML / DL에 대한 경험이 거의 없어서 실무자 중 한 사람이라고 부르지 만 여기에 첫 번째 질문에 대한 대답이 있습니다.

핵심 DL에서 분류 작업을 잘 해결합니다. 모든 실제적인 문제가 분류의 관점에서 표현 될 수있는 것은 아닙니다. 분류 영역을 미리 알아야합니다. 분류는 모든 유형의 데이터에 적용 할 수 있지만 NN을 적용 할 특정 도메인의 샘플로 NN을 훈련시켜야합니다. 동일한 모델 (NN 구조)을 유지하면서 도메인이 어느 시점에서 전환되면 새로운 샘플로 재교육을 받아야합니다. 더욱이, 가장 우수한 분류기조차도 "갭"을 갖는다- 적대적인 예 는 훈련 샘플로부터 쉽게 구성 될 수있어서, 변화는 인간에게는 인식되지 않지만 훈련 된 모델에 의해 잘못 분류된다.


2
'분류'는 특수한 '회귀'사례로 간주 될 수 있으며 이는 아마도 DL의 더 나은 특성 일 수 있습니다.
NietzscheanAI 2016

3

질문 2. 하이퍼 차원 컴퓨팅이 딥 러닝의 대안인지 여부를 연구하고 있습니다. Hyper-D는 매우 긴 비트 벡터 (10,000 비트)를 사용하여 정보를 인코딩합니다. 벡터는 무작위 적이며 따라서 대략 직교한다. 이러한 벡터의 모음을 그룹화하고 평균화함으로써, "세트"가 형성되고 나중에 미지의 벡터가 세트에 속하는지 확인하기 위해 질의 될 수있다. 세트는 개념 또는 일반화 이미지 등으로 간주 될 수 있습니다. 인식은 훈련 속도가 매우 빠릅니다. 해야 할 일은 딥 러닝이 성공한 도메인을 시뮬레이션하고 Hyper-D를 도메인과 비교하는 것입니다.


흥미 롭군 그렇다면 이것이 Kanerva의 'Sparse Distributed Memory'와 어떻게 다릅니 까?
NietzscheanAI

둘 다 Pentti Kanerva에 의해 개발되었습니다. 차이를 보려면 하이퍼 차원 컴퓨팅을 찾아보십시오. 답변이 너무 깁니다.
Douglas G Danforth

1

수학의 관점에서 여러 계층이있는 심층 네트워크의 주요 문제 중 하나는 사라지 거나 불안정한 그래디언트 입니다. 각각의 추가 숨겨진 레이어는 상당히 느리게 학습하여 추가 레이어의 이점을 거의 무효화합니다.

현대의 딥 러닝 접근법은 이러한 행동을 개선 할 수 있지만, 단순하고 구식 인 신경망에서는 이것이 잘 알려진 문제입니다. 당신은 잘 쓰여진 분석을 찾을 수 있습니다 여기에 더 깊은 연구를 위해.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.