가까운 미래에 신경망을 대체 할 수있는 모델은 무엇입니까?


답변:


4

이것은 거꾸로 진행되지만 논쟁의 논리를 따릅니다.

효율성 측면에서 고전 신경 네트워크의 몇 가지 주요 문제를 볼 수 있습니다.

데이터 수집 및 전처리 오버 헤드

큰 신경망 은 훈련하기 위해 많은 데이터가 필요 합니다 . 양은 네트워크의 크기와 작업의 복잡성에 따라 달라질 수 있지만 일반적으로 일반적으로 가중치 수에 비례합니다. 일부 감독 학습 과제의 경우, 양질의 라벨링 된 데이터가 충분하지 않습니다. 많은 양의 전문 교육 데이터를 수집하는 데 몇 개월 또는 몇 년이 걸릴 수 있으며 라벨링은 번거롭고 신뢰할 수 없습니다. 이것은 데이터 확대에 의해 부분적으로 완화 될 수 있습니다. 즉, 이미 가지고있는 예제에서 더 많은 예제를 "합성"한다는 의미이지만 만병 통치약은 아닙니다.

훈련 시간 대 에너지 절충

학습 속도는 일반적으로 매우 작으므로 교육 진행이 느립니다. 데스크탑 CPU에서 훈련하는 데 몇 주가 걸리는 대형 모델은 몇 kW의 전력을 소비하는 GPU 클러스터를 사용하여 2 시간 동안 훈련 할 수 있습니다. 이것은 훈련 절차의 특성으로 인한 근본적인 상충 관계입니다. 예를 들어, 새로운 nVidia Volta GPU 아키텍처는 15.7 TFLOP를 허용하면서 300W 미만의 전력을 소비합니다.

양도 불가

현재 거의 모든 다른 문제는 맞춤형 신경망을 설계, 훈련 및 배포해야합니다. 솔루션은 종종 작동하지만 문제 에 갇혀 있습니다. 예를 들어, AlphaGo 는 Go에서 훌륭하지만 자동차를 운전하거나 음악 추천을 제공하는 데 희망이 없습니다. 그러한 작업을 위해 설계된 것은 아닙니다. 이 압도적 인 중복성은 필자의 관점에서 신경망의 주요 단점이며, 일반적으로 신경망 연구의 진행에 주요 장애이기도합니다. 전이 학습 이라는 전체 연구 영역이 있습니다한 작업에서 훈련 된 네트워크를 다른 작업에 적용하는 방법을 찾는 방법을 다룹니다. 이것은 종종 두 번째 작업에서 네트워크를 처음부터 훈련시키기에 충분한 데이터가 충분하지 않을 수 있다는 사실과 관련이 있기 때문에 약간의 추가 조정과 함께 사전 훈련 된 모델을 사용할 수 있다는 것은 매우 매력적입니다.


질문의 첫 부분은 더 까다 롭습니다. 순전히 통계 모델을 제쳐두고 신경망 과 근본적으로 다른 머신 러닝에 대한 눈에 띄는 접근법은 보지 못했습니다 . 그러나 위의 비 효율성을 해결하기 때문에 언급 할만한 흥미로운 개발이 있습니다.

신경성 칩

먼저 약간의 배경.

스파이 킹 신경망 은 계산 능력 측면에서 엄청난 잠재력을 가지고 있습니다. 실제로, 그것들이 시그 모이 드 활성화를 갖는 고전적인 신경망보다 엄격하게 더 강력 하다는 것이 입증되었습니다 .

또한, 스파이 킹 신경망은 본질적으로 시간을 파악 하고 있는데, 이는 처음부터 클래식 네트워크의 주요 장애물이었습니다. 뿐만 아니라 스파이 킹 네트워크는 이벤트 중심 이므로 뉴런은 들어오는 신호가있는 경우에만 작동합니다. 이것은 각 뉴런이 입력에 관계없이 평가되는 고전적인 네트워크와 대조적입니다 (다시 말하면, 이것은 일반적으로 평가 절차가 일반적으로 두 개의 조밀 한 행렬의 곱으로 구현되는 결과 임). 따라서 스파이 킹 네트워크는 희소 인코딩 체계를 사용합니다. 즉, 주어진 시간에 적은 양의 뉴런 만 활성화됩니다.

이제 스파 스 스파이크 기반 인코딩 및 이벤트 기반 작업은 신경성 칩 이라는 스파이크 네트워크의 하드웨어 기반 구현에 적합합니다 . 예를 들어, IBM의 TrueNorth 칩은 평균 100mW 의 전력 만 사용 하면서 1 백만 개의 뉴런2 억 5 천만 개의 연결 을 시뮬레이션 할 수 있습니다 . 입니다 크기 순서는 현재 엔비디아의 GPU보다 더 효율적입니다. Neuromorphic 칩은 위에서 언급 한 훈련 시간 / 에너지 트레이드 오프 솔루션 일 수 있습니다.

또한, 추억 은 비교적 새롭지 만 매우 유망한 개발입니다. 기본적으로 멤 리스터는 저항과 매우 유사하지만 전체 수명 동안 전류를 통과 한 총 전류량에 비례하는 가변 저항 을 갖는 기본 회로 요소 입니다. 본질적으로 이것은 통과 한 전류량의 "메모리"를 유지한다는 것을 의미합니다. 기억 장치의 흥미로운 잠재적 응용 중 하나는 하드웨어에서 시냅스를 매우 효율적으로 모델링하는 것입니다.

강화 학습 및 진화

나는 이것들이 언급 할 가치가 있다고 생각합니다. 이는 신경망에만 국한되지 않으며 보상 중심, RL 및 진화는 이론적으로 에이전트가 달성 할 보상 또는 목표를 정의 할 수있는 모든 작업에 일반적인 설정으로 적용 할 수 있습니다. 이것은 반드시 사소한 것은 아니지만, 학습 요원이 결과와 실제 진실의 차이를 최소화하려고 시도하는 일반적인 오류 중심 접근법보다 훨씬 일반적입니다. 여기서 중요한 점은 전이 학습에 관한 것입니다. 이상적으로는 훈련 된 요원을 다른 작업에 적용 하는 것이 목표 나 보상을 변경하는 것만 큼 간단 해야합니다 (아직 아직 그 수준에 있지는 않습니다 ...).


Maass는 1996 년 논문에서 "엄격히 더 강력하다"고 말하지만 수학적으로 엄격하다고 주장하고 컴퓨팅 능력을 정의하지 못한다. 더욱이 1996 년에 시그 모이 드 활성화 기능이 널리 보급되었을 때 작성되었는데, 현재는 그렇지 않습니다. 정확하게는 단순한 활성화 기능만큼이나 다양한 시나리오에서 수렴하지 않기 때문입니다. Maass는 논문에서 두 번만 수렴에 대해 언급하고 수렴이 발생하는 방식을 나타내지 않으며 머신 러닝 목표 측면에서 컴퓨팅 성능의 정의가 없음을 더욱 강조합니다.
FauChristian

RL과 진화 사이의 연관성은 불분명하다. 유전자 알고리즘과 RL의 조합을 언급하고 있습니까? 그렇다면 참조 란 무엇입니까?
FauChristian

@FauChristian 비록 당신이 전체 논문을 읽지 않더라도, 계산 능력의 정의는 초록 (두 번째 문장)으로 제공됩니다 :In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
cantordust

@FauChristian Sigmoid 활성화는 여전히 살아남고 있습니다. 예를 들어, LSTMs는 게이트 용 시그 모이 activaitons를 사용 softmax를 (정규화 sigmoids는) 여전히 우리는 멀티 클래스 분류 등 "단순"활성화가 반드시 더 나은되지 않습니다에 대해 가지고있는 가장 좋은 방법입니다 - 원래 ReLU는 ( max(0, x)) 위험에 매우이다 에 붙어서 x < 0죽은 뉴런을 초래합니다. 어쨌든 요점은 스파이크 네트의 계산 능력과 전력 소비 측면에서 매우 효율적인 하드웨어 구현에 관한 것입니다.
cantordust

@FauChristian 나는 RL과 진화 사이에 유사점을 그리지 않습니다. 나는 그들에게 특정 유형의 비 효율성을 해결하기위한 유망한 접근법의 예를 제시하고있다. 즉, 당신이 직면하고있는 모든 개별 문제에 대한 해결책을 수작업으로 만들어야한다 (NN 또는 다른 것). 이상적으로 는 높은 수준의 목표를 기반으로 특정 문제에 대해 RL 및 / 또는 진화에 의해 자동으로 조정되는 일반 솔버 를 설계 할 수 있어야합니다 .
cantordust

1

신경망 교체

신경망을 대체 할 수있는 새로운 알고리즘이있을 수 있습니다. 그러나 신경망의 특성 중 하나는 기하학적 요소로 컴퓨팅 리소스에 대한 수요가 적은 간단한 요소를 사용한다는 것입니다.

인공 뉴런은 계산을 DSP 장치 또는 다른 병렬 컴퓨팅 하드웨어에 매핑하여 CPU 시간 공유 또는 루핑없이 병렬로 실행할 수 있습니다. 많은 뉴런이 본질적으로 똑같다는 것이 강력한 이점입니다.

우리는 무엇을 교체 할 것입니까?

신경망으로의 알고리즘 대체를 고려할 때 신경망 설계가 알고리즘임을 암시합니다. 그렇지 않습니다.

신경망은 실시간 회로를 수렴하여 최적의 것의 일부 공식에 기초하여 입력을 출력으로 비선형 변환하는 방법입니다. 이러한 제제는 정의 된 이상으로부터의 오차 또는 불일치의 측정을 최소화 할 수있다. 최대화해야하는 건강의 척도 일 수 있습니다.

임의의 주어진 네트워크 행동에 대한 적합성 결정의 근원은 내부 일 수있다. 우리는 이것을 비지도 학습이라고합니다. 외부 피트니스 정보는 외부 출력 정보가 ​​원하는 출력 값의 형태로 입력 벡터와 결합 될 때 감독되는 것으로, 레이블이라고합니다.

피트니스는 입력 데이터와 결합되지 않고 실시간이라고하는 스칼라 또는 벡터로 외부에서 시작될 수도 있습니다.이를 우리는 강화라고합니다. 이를 위해서는 재진입 학습 알고리즘이 필요합니다. 순 행동 적합성은 스택 된 그물 또는 라플라시안 계층과 같은 다른 구성의 경우 시스템 내의 다른 그물에 의해 대안 적으로 평가 될 수있다.

알고리즘 선택은 일단 수학적 및 프로세스 설계가 선택되면 비교 지능과 거의 관련이 없습니다. 알고리즘 설계는 컴퓨팅 리소스에 대한 요구를 최소화하고 시간 요구 사항을 줄이는 것과 직접 관련이 있습니다. 이 최소화는 하드웨어 및 운영 체제에 따라 다릅니다.

대체품이 표시됩니까?

확실한. 네트워크가 포유류 뉴런과 비슷하다면 더 좋을 것입니다.

  • 활성화의 정교함
  • 연결 패턴의 이질성
  • 메타 적응을 지원하는 디자인의 가소성
  • 여러 차원의 지역 신호 관리

지역 신호는 시냅스를 통한 신호 전송 이상의 많은 화학 신호를 의미합니다.

우리는 포유류 신경학 이상의 것을 고려할 수도 있습니다.

  • 파라 메트릭 및 가설 기반 학습 결합
  • 미생물이 DNA를 통과 할 때 사용되는 형태의 학습

신경망 효율

온도는 켈빈 온도로 정량화 할 수 있으므로 일부 범용 스케일에서는 효율을 정량화 할 수 없습니다. 효율성은 이론적 이상에 비해 일부 측정 값의 몫으로 만 수량화 할 수 있습니다. 분모에서는 최대 값이 아닌 이상적인 값입니다. 열역학적 엔진에서 이상적인 것은 에너지 입력 속도이며 출력으로 완전히 전달할 수는 없습니다.

마찬가지로, 신경망은 제로 시간에 배울 수 없습니다. 신경망은 생산에서 임의로 오랜 시간 동안 제로 오류를 달성 할 수 없습니다. 따라서 정보는 에너지와 같은 방식으로, 디지털 자동화가 시작되는 동안 Bell Labs의 Claude Shannon이 조사한 개념이며, 정보 엔트로피와 열역학 엔트로피의 관계는 이제 이론 물리학의 중요한 부분입니다.

나쁜 학습 효율성이나 좋은 학습 효율성은 없습니다. 논리적이고 과학적인 용어로 생각하고 싶을 때 성능이 나쁘거나 성능이 떨어질 수 없습니다. 매우 특정한 성능 시나리오 세트를 위해 다른 시스템 구성과 관련하여 일부 시스템 구성을 상대적으로 개선하기 만합니다.

따라서 두 가지 하드웨어, 운영 체제 및 소프트웨어 구성에 대한 명확한 사양과 상대 평가에 사용되는 완전히 정의 된 테스트 스위트가 없으면 효율성은 의미가 없습니다.


1

우리 앞에는 희망이 있습니다. 현재 우리는 '스쿼시'기능이라는 다른 비선형 활성화를 사용하는 J.Hinton의 캡슐 네트워크 를 보유하고 있습니다.

  1. CNN은 CNN에서 최대 풀링을 '큰 실수'라고 부릅니다. CNN은 이미지의 존재 객체 만 상대적인 방향이 아니라 이미지에서 존재하는 객체 만 찾습니다. 따라서 번역 불일치를 달성하는 동안 공간 정보가 손실됩니다.
  2. 신경망은 고정 연결을하는 반면, 캡슐 네트워크의 캡슐은 모든 에포크 (epoch) 동안 어떤 캡슐이 활성화를 통과해야하는지 결정합니다. 이것을 '라우팅'이라고합니다.
  3. 신경망에서 모든 뉴런의 활성화는 스칼라입니다. 캡슐의 활성화는 이미지에서 물체의 자세와 방향을 캡처하는 벡터입니다.
  4. CNN은 인간 시각 시스템의 잘못된 표현으로 간주됩니다. 인간의 시각 시스템이란 눈과 뇌 / 인식을 함께 의미합니다. 우리는 한 포즈에서 보았더라도 모든 포즈에서 자유의 여신상을 식별 할 수 있습니다. 대부분의 경우 CNN은 다른 포즈와 방향에서 동일한 객체를 감지 할 수 없습니다.

캡슐 네트워크 자체에는 몇 가지 단점이 있습니다. 신경망 너머를 바라 보는 방향으로 연구가 진행되었습니다. 당신이 읽을 수있는 블로그를 당신이 J.Hinton에 의해 용지를 읽기 전에 좋은 이해를 위해.


0

신경망에는 많은 데이터와 훈련이 필요합니다. 대부분의 테이블 형식 데이터 집합의 경우 의사 결정 트리 기반 모델을 사용하는 것이 훨씬 좋습니다. 대부분의 경우 간단한 모델만으로도 정확한 정확도를 얻을 수 있습니다. 그러나 신경망은 시간 테스트를 거쳤습니다. 딥 러닝 혁명이 시작된 지 5 ~ 6 년이 지났으므로 여전히 딥 러닝의 진정한 힘을 모릅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.