빠른 답변
인텔이 너바나를 인수했을 때, 그들은 아날로그 VLSI가 가까운 미래 1, 2, 3 의 신경성 칩에서 자리를 잡고 있다고 자신의 믿음을 나타냈다 .
아날로그 회로에서 자연적인 양자 노이즈를보다 쉽게 이용할 수있는 능력 때문인지 여부는 아직 공개되지 않았습니다. 단일 VLSI 칩에 패키징 될 수있는 병렬 활성화 기능의 수와 복잡성 때문에 더 가능성이 높습니다. 아날로그는 그 점에서 디지털보다 수십 배나 유리합니다.
AI Stack Exchange 회원이 이처럼 강력하게 표시된 기술의 발전을 가속화하는 것이 유리할 것입니다.
AI의 중요한 트렌드와 비 트렌드
과학적으로이 질문에 접근하려면 추세의 편향없이 아날로그 및 디지털 신호 이론을 대조하는 것이 가장 좋습니다.
인공 지능 애호가는 웹에서 딥 러닝, 기능 추출, 이미지 인식 및 다운로드하고 즉시 실험을 시작할 소프트웨어 라이브러리에 대해 많은 것을 찾을 수 있습니다. 그것은 기술로 대부분의 발을 젖게하는 방법이지만 AI에 대한 빠른 소개는 단점도 있습니다.
소비자 대면 AI의 초기 성공적인 배치에 대한 이론적 기초가 이해되지 않는 경우, 그러한 기초와 상충되는 가정이 형성됩니다. 아날로그 인공 뉴런, 스파이크 네트워크 및 실시간 피드백과 같은 중요한 옵션이 간과됩니다. 양식, 기능 및 안정성 향상이 손상되었습니다.
기술 개발에 대한 열정은 항상 합리적 사고의 적어도 동등한 척도로 강화되어야합니다.
수렴 및 안정성
피드백을 통해 정확성과 안정성이 달성되는 시스템에서 아날로그 및 디지털 신호 값은 항상 단순한 추정치입니다.
- 수렴 알고리즘 또는보다 정확하게 수렴하도록 설계된 전략의 디지털 가치
- 안정적인 연산 증폭기 회로의 아날로그 신호 값
디지털 알고리즘의 오류 수정을 통한 수렴과 아날로그 계측의 피드백을 통해 얻은 안정성 간의 병렬성을 이해하는 것이이 질문에 대해 생각하는 데 중요합니다. 이것들은 현대의 전문 용어를 사용하는 것과 유사합니다. 왼쪽에는 디지털이 있고 오른쪽에는 아날로그가 있습니다.
┌────────────────────────────────┬────────────────── ─────────────┐┐
│ * 디지털 인공 그물 * │ * 아날로그 인공 그물 * │
├────────────────────────────────┼────────────────── ──────────────┤
│ 순방향 전파 │ 1 차 신호 경로 │
├────────────────────────────────┼────────────────── ──────────────┤
│ 에러 기능 │ 에러 기능 │
├────────────────────────────────┼────────────────── ──────────────┤
│ 수렴 │ 안정 │
├────────────────────────────────┼────────────────── ──────────────┤
│ 기울기의 채도 │ 입력에서의 채도 │
├────────────────────────────────┼────────────────── ──────────────┤
│ 활성화 기능 │ 전달 기능 │
└────────────────────────────────┴────────────────── ──────────────┘
디지털 회로의 인기
디지털 회로의 인기가 상승하는 주요 요인은 노이즈 차단입니다. 오늘날의 VLSI 디지털 회로는 평균 고장 시간이 길다 (잘못된 비트 값이 발생한 경우 인스턴스 간 평균 시간).
노이즈를 가상으로 제거함으로써 디지털 회로는 측정, PID 제어, 계산 및 기타 응용 분야에서 아날로그 회로에 비해 상당한 이점을 제공했습니다. 디지털 회로를 사용하면 5 자리까지의 정확도를 측정하고, 뛰어난 정밀도로 제어하며, π를 10 진수로 정확하게 반복하여 안정적으로 계산할 수 있습니다.
디지털 회로 제조에서 규모의 경제를 달성하기 위해 제조 수요를 증가시킨 것은 항공, 방위, 탄도 및 대책 예산이었습니다. 디스플레이 해상도 및 렌더링 속도에 대한 요구로 인해 현재 GPU를 디지털 신호 프로세서로 사용하고 있습니다.
이러한 경제적 인 힘이 최고의 디자인 선택을 야기합니까? 디지털 기반 인공 네트워크가 귀중한 VLSI 부동산을 가장 잘 사용합니까? 이것이이 질문의 도전이며, 좋은 질문입니다.
IC 복잡성의 현실
의견에서 언급했듯이 실리콘에 독립적이고 재사용 가능한 인공 네트워크 뉴런을 구현하려면 수만 개의 트랜지스터가 필요합니다. 이것은 주로 각 활성화 계층으로 이어지는 벡터 행렬 곱셈 때문입니다. 벡터 행렬 곱셈과 레이어의 연산 증폭기 배열을 구현하는 데 인공 뉴런 당 수십 개의 트랜지스터 만 있으면됩니다. 연산 증폭기는 이진 단계, 시그 모이 드, 소프트 플러스, ELU 및 ISRLU와 같은 기능을 수행하도록 설계 될 수 있습니다.
반올림으로 인한 디지털 신호 노이즈
디지털 신호는 대부분의 디지털 신호가 반올림되므로 근사치이므로 노이즈가 없습니다. 역 전파에서 신호의 포화는 먼저이 근사에서 생성 된 디지털 노이즈로 나타납니다. 신호가 항상 동일한 이진 표현으로 반올림되면 추가 채도가 발생합니다.
V이자형케이엔엔
v = ∑엔n = 01엔2k + e + N− n
0.2로 예상되는 답변이 0.20000000000001로 나타날 때 프로그래머는 배정도 또는 단 정밀도 IEEE 부동 소수점 숫자로 반올림하는 효과를 겪는 경우가 있습니다. 5는 2의 인수가 아니기 때문에 5 분의 1을 이진수로 완벽하게 표현할 수 없습니다.
미디어 오버 사이언스와 인기 트렌드
이자형= m c2
많은 기술 제품과 마찬가지로 기계 학습에는 4 가지 주요 품질 지표가 있습니다.
- 효율성 (속도와 사용 경제성 향상)
- 신뢰할 수 있음
- 정확성
- 종합 성 (유지 보수성을 촉진)
때때로, 항상 그런 것은 아니지만, 하나의 달성이 다른 것을 타협하는 경우, 균형을 be어야합니다. 그라디언트 디센트 (gradient descent)는이 네 가지를 균형있게 조정하는 디지털 알고리즘으로 실현 될 수있는 컨버전스 전략입니다. 이것이 멀티 레이어 퍼셉트론 훈련과 많은 딥 네트워크에서 지배적 인 전략입니다.
이 4 가지 사항은 Bell Labs의 첫 번째 디지털 회로 또는 진공관으로 실현 된 최초의 플립 플롭 이전에 Norbert Wiener의 초기 사이버네틱스 작업의 핵심이었습니다. 사이버네틱스 (cybernetics)라는 용어는 그리스어 κυβερνήτης (kyvernítis로 발음 됨 ) 에서 유래 한 것으로, 방향 과 항해는 끊임없이 변화하는 바람과 전류를 보상해야했으며 배는 의도 된 항구 나 항구에 수렴해야했습니다.
이 질문의 미미한 경향은 아날로그 네트워크를위한 규모의 경제를 달성하기 위해 VLSI가 달성 될 수 있는지에 대한 아이디어를 둘러 쌀 수 있지만 저자가 제시 한 기준은 추세 주도적 관점을 피하는 것입니다. 그렇지 않은 경우에도, 전술 한 바와 같이, 디지털보다 아날로그 회로를 갖는 인공 네트워크 층을 생성하기 위해 훨씬 더 적은 트랜지스터가 요구된다. 따라서 VLSI 아날로그를 달성하는 데주의를 기울이면 합리적인 비용으로 VLSI 아날로그를 실현할 수 있다고 가정하면이 질문에 대답하는 것이 합법적입니다.
아날로그 인공 네트워크 설계
아날로그 인공 그물은 IBM / MIT 합작 투자를 포함, 전세계 모든 연구되고있다, 인텔의 열반, 구글, 1992 년 초 한 미 공군 5 , 테슬라, 그리고 많은 다른 사람들이, 어떤 의견에 표시된이에 추가 질문.
인공 네트워크를위한 아날로그에 대한 관심은 VLSI 칩 면적의 제곱 밀리미터에 맞출 수있는 학습과 관련된 병렬 활성화 기능의 수와 관련이 있습니다. 이는 필요한 트랜지스터 수에 크게 좌우됩니다. 감쇠 매트릭스 (학습 파라미터 매트릭스) ( 4) 는 벡터-매트릭스 곱셈을 필요로하는데, 이는 많은 수의 트랜지스터를 필요로하므로 상당한 VLSI 영역을 필요로한다.
완전한 병렬 훈련을 위해 기본 다층 퍼셉트론 네트워크에 5 개의 독립적 인 기능적 구성 요소가 있어야합니다.
- 각 계층의 활성화 함수 사이에서 순방향 전파의 진폭을 매개 변수화하는 벡터 행렬 곱셈
- 매개 변수 유지
- 각 레이어의 활성화 기능
- 역 전파에 적용 할 활성화 레이어 출력 유지
- 각 층에 대한 활성화 함수의 파생
아날로그 회로에서는 신호 전송 방법에 내재 된 더 큰 병렬 처리로 2와 4가 필요하지 않을 수 있습니다. Spice와 같은 시뮬레이터를 사용하여 피드백 이론 및 고조파 분석이 회로 설계에 적용됩니다.
씨피c ( ∫r )r ( t , c )티나는나는승나는 τ피τㅏτ디
c = c피c ( ∫r ( t , c )디t )( ∑나는− 2나는 = 0( τ피승나는승난 − 1+ τㅏ승나는+ τ디승나는) + τㅏ승나는− 1+ τ디승나는− 1)
현재 아날로그 집적 회로에서 이러한 회로의 공통 값을 위해, 우리는 동등한 교육 병렬 처리를 통해 시간이 지남에 따라 디지털 칩보다 최소 3 배 낮은 값으로 수렴되는 아날로그 VLSI 칩 비용이 있습니다.
노이즈 인젝션 직접 해결
"우리는 수렴 알고리즘의 다음 단계를 추정하기 위해 그라디언트 (Jacobian) 또는 2 차 모델 (Hessian)을 사용하고 고의로 노이즈를 추가하거나 의사 랜덤 랜덤 섭동을 주입하여 오류에서 로컬 우물을 뛰어 넘어 수렴 신뢰성을 향상시킵니다. 수렴하는 동안 표면. "
의사 랜덤 노이즈가 훈련 및 수렴 알고리즘과 같은 실시간 재진입 네트워크에 수렴 알고리즘에 주입되는 이유는 그 세계 최소값이 아닌 시차 (오류) 표면에 로컬 최소값이 있기 때문입니다. 표면. 글로벌 최소값은 인공 네트워크의 최적의 훈련 상태입니다. 지역 최소치는 최적과 거리가 멀 수 있습니다.
이 표면은 모수의 오차 함수 (이 단순화 된 경우 6 중 2 개 )와 전역 최소값의 존재를 숨기는 국소 최소값 문제를 보여줍니다. 표면의 낮은 지점은 최적의 훈련 수렴의 지역 지역의 임계 지점에서 최소를 나타냅니다. 7,8
오류 기능은 단순히 훈련 중 현재 네트워크 상태와 원하는 네트워크 상태 간의 차이를 측정 한 것입니다. 인공 네트워크를 훈련하는 동안 목표는이 차이의 전 세계 최소값을 찾는 것입니다. 이러한 표면은 샘플 데이터가 라벨링되었는지 또는 라벨링되지 않았는지 여부 및 훈련 완료 기준이 인공 네트워크의 내부인지 외부인지에 존재한다.
학습 속도가 작고 초기 상태가 매개 변수 공간의 원점 인 경우, 기울기 하강을 사용하는 수렴은 가장 오른쪽에있는 글로벌 최소값이 아니라 가장 왼쪽의 웰까지 수렴합니다.
학습을 위해 인공 네트워크를 초기화하는 전문가가 두 최소 점 사이의 중간 점을 선택하기에 충분히 영리하더라도 해당 지점의 기울기가 여전히 왼쪽 최소쪽으로 기울어지고 수렴이 최적이 아닌 훈련 상태에 도달합니다. 훈련의 최적 성이 중요 할 경우, 훈련은 생산 품질 결과를 달성하지 못할 것입니다.
사용되는 한 가지 솔루션은 수렴 프로세스에 엔트로피를 추가하는 것인데, 이는 종종 의사 난수 생성기의 감쇠 된 출력을 주입하는 것입니다. 덜 자주 사용되는 또 다른 솔루션은 훈련 프로세스를 분기하고 두 번째 수렴 프로세스에서 많은 양의 엔트로피를 주입하여 보수적 인 검색과 다소 거친 검색이 병렬로 실행되도록하는 것입니다.
초소형 아날로그 회로의 양자 노이즈는 디지털 의사 랜덤 생성기보다 엔트로피의 신호 스펙트럼에 대해 더 큰 균일 성을 가지며 고품질 노이즈를 달성하기 위해 훨씬 적은 트랜지스터가 필요하다는 것은 사실입니다. VLSI 구현에서 이러한 과제를 극복했는지 여부는 정부와 기업에 포함 된 연구소에서 아직 밝혀지지 않았습니다.
- 훈련 속도와 신뢰성을 향상시키기 위해 측정 된 무작위 량을 주입하는 데 사용되는 이러한 확률 적 요소가 훈련 중에 외부 소음에 적절하게 영향을 받습니까?
- 내부 누화로부터 충분히 보호됩니까?
- VLSI 제조 비용을 낮추어 고액의 연구 기업 이외의 더 큰 사용 지점에 도달 할 수있는 수요가 발생합니까?
세 가지 도전은 모두 그럴듯하다. 디자이너와 제조업체가 아날로그 신호 경로 및 활성화 기능의 디지털 제어를 촉진하여 고속 훈련을 달성하는 방법이 확실하고 매우 흥미 롭습니다.
각주
[1] https://ieeexplore.ieee.org/abstract/document/8401400/
[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age
[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820
감쇠 (Attenuation)는 하나의 액츄 에이션에서 출력 가능한 신호를 훈련 가능한 투과율로 곱하여 후속 레이어의 활성화에 대한 입력을 위해 다른 것들과 합산되는 부가 물을 제공하는 것을 말한다. 이 용어는 물리학 용어이지만 전기 공학에서 자주 사용되며 교육 수준이 낮은 원에서 레이어 입력 가중치라는 기능을 수행하는 벡터 행렬 곱셈의 기능을 설명하는 데 적합한 용어입니다.
[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf
[6] 인공 네트워크에는 두 개 이상의 매개 변수가 있지만이 그림에는 두 개만 표시됩니다. 플롯은 3 차원으로 만 이해할 수 있고 오류 함수 값에 대해 3 차원 중 하나가 필요하기 때문입니다.
지= ( x − 2 )2+ ( y− 2 )2+ 60 - 401 + ( y− 1.1 )2+ ( x − 0.9 )2√− 40( 1 + ( ( y− 2.2 )2+ ( x − 3.1 )2)4)
[8] 관련 gnuplot 명령 :
set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
- 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
- 40 / (1+(y-2.2)**2+(x-3.1)**2)**4