신경망이 왜 그렇게 많은 훈련 예제를 필요로합니까?


64

2 세의 어린이는 색상, 제작 등에 관계없이 합리적인 정확도로 차량을 식별 할 수 있도록 약 5 대의 자동차가 필요합니다. 아들이 2 살이었을 때, 그는 보았지만 전차와 기차를 식별 할 수있었습니다 단지 몇 개. 그는 보통 서로를 혼동하고 있었기 때문에 그의 신경망은 충분히 훈련되지 않았지만 여전히 그렇습니다.

인공 신경망이 빠져서 더 빨리 배울 수 없게되는 것은 무엇입니까? 전학 학습이 답입니까?


23
코끼리는 자동차보다 좋은 예일 수 있습니다. 다른 사람들이 지적했듯이, 어린이는 라벨을 듣기 전에 많은 자동차 보았을 것입니다. 따라서 마음이 이미 "자연적인 종류"를 정의하면 이제 자동차에 대한 라벨이 있습니다. 그러나 서구의 어린이는 단지 몇 가지 데이터를 기반으로 훌륭한 코끼리 분류 시스템을 개발합니다.
JG

70
인간의 두뇌가 신경망처럼 작동한다고 생각하는 이유는 무엇입니까?
Paul Wasilewski

16
NN은 자동차의 이미지를 보여줄 수 있습니다. 자녀는 여러 가지 유형의 자동차에 대해 다양한 관점에서 풀 3D 영화를받습니다. 자녀는 자동차와 구별되는 비슷한 예를 가지고있을 것입니다. 예를 들어 유모차, 장난감 등이 없으면 자녀에게 더 많은 예가 필요했을 것입니다.
Stian Yttervik

20
@MSalters 인공 신경 네트워크의 의미에서? 아마 아닙니다.
Firebug

28
"2 세의 어린이는 합리적인 정확도로 차량을 식별 할 수 있도록 약 5 대의 자동차가 필요합니다."이러한 어린이는 자동차 가 아닌 것들에 대해 2 년의 경험이 있습니다. 나는 그것이 중요한 역할을 할 것이라고 확신합니다.
DarthFennec

답변:


101

생물학적 신경 네트워크와 인공 신경 네트워크간에 강한 유사성을 기대하지 않도록주의하십시오. 신경망 프로세스와 머신 러닝이 동일해야한다고 사람들을 속이기 때문에 "신경망"이라는 이름은 약간 위험하다고 생각합니다. 생물학적 신경 네트워크와 인공 신경 네트워크의 차이는 유사성보다 중요합니다.

이것이 어떻게 잘못 될 수 있는지에 대한 예로서, 당신은 또한 머리에있는 원본 포스트에서 추론을 돌릴 수 있습니다. 컴퓨터가 빠르고 컴퓨터에 충분한 양의 훈련 데이터가 있다면, 신경망을 훈련시켜 오후에 자동차를 인식하는 법을 배울 수 있습니다. 이진 작업 (자동차 / 자동차 아님) 또는 멀티 클래스 작업 (자동차 / 트램 / 자전거 / 비행기 / 보트)으로 만들면서도 높은 수준의 성공을 확신 할 수 있습니다.

대조적으로, 나는 아이가 태어나고 난 후, 심지어 "많은 훈련 사례"를 본 후에도 차를 선택할 수 있다고 기대하지 않을 것입니다. 바닐라 이미지 분류 신경망은 "출생" 직후 객체 분류를 완벽하게 수행 할 수있는 반면, 학습 능력의 차이를 설명하는 2 살짜리와 유아 사이에는 분명히 다른 것이 있습니다 . 두 가지 중요한 차이점이 있다고 생각합니다. (1) 사용 가능한 교육 데이터의 양과 (2) 풍부한 교육 데이터로 인해 시간이 지남에 따라 개발되는 자체 교육 메커니즘.


원래 게시물에는 두 가지 질문이 있습니다. 질문의 제목과 본문은 왜 신경망이 "너무 많은 예"를 필요로하는지 묻습니다. 어린이의 경험과 관련하여 일반적인 이미지 벤치 마크를 사용하여 훈련 된 신경망에는 데이터가 거의 없습니다.

제목의 질문을 다시

"일반적인 이미지 벤치 마크를 위해 신경망을 훈련시키는 것은 어린이의 학습 경험과 어떻게 비교되고 대조됩니까?"

비교를 위해 CIFAR-10 데이터는 일반적인 이미지 벤치 마크이므로 고려해야합니다. 레이블이 지정된 부분은 클래스 당 6000 개의 이미지가있는 10 개의 이미지 클래스로 구성됩니다. 각 이미지는 32x32 픽셀입니다. CIFAR-10에서 레이블이 지정된 이미지를 쌓아서 표준 48fps 비디오를 만든 경우 약 20 분의 푸티지가 있습니다.

매일 12 시간 동안 세계를 관찰하는 2 년의 어린이는 성인 (라벨)의 피드백을 포함하여 대략 263000 분 (4000 시간 이상)의 세계를 직접 관찰합니다. (이것은 단지 야구장 수치 일뿐입니다. 전형적인 2 살짜리 소년이 세계를 관찰하는 데 몇 분이 걸 렸는지 모르겠습니다.) 또한 아이는 CIFAR- 10.

따라서 몇 가지 중요한 사항이 있습니다. 하나는 아이가 CIFAR-10 모델보다 더 많은 데이터와 더 다양한 데이터 소스에 노출되어 있다는 것입니다. 데이터 다양성과 데이터 양은 일반적으로 강력한 모델의 전제 조건으로 잘 알려져 있습니다. 이러한 관점에서 CIFAR-10에 대해 훈련 된 신경망이 2 살짜리 아동에 비해 훈련 데이터에 긍정적으로 굶주 리기 때문에 신경망이이 과제에서 아동보다 더 나쁘다는 것은 놀라운 일이 아닙니다. 어린이가 사용할 수있는 이미지 해상도는 32x32 CIFAR-10 이미지보다 뛰어나므로 어린이는 개체의 미세한 세부 정보에 대한 정보를 배울 수 있습니다.

CIFAR-10과 2 살짜리 비교는 CIFAR-10 모델이 동일한 정적 이미지를 여러 번 통과하도록 훈련 될 가능성이 높기 때문에, 아이는 양안 비전을 사용하여 물체가 3 개로 배열되는 방식을 볼 수 있기 때문에 완벽하지 않습니다. 같은 물체에서 다른 조명 조건과 원근을 이동하면서 입체 세계.

OP의 아이에 대한 일화는 두 번째 질문을 암시합니다.

"신경망은 어떻게 자기 교육을 할 수 있습니까?"

어린이에게는 자체 교육에 대한 재능이 부여되므로 처음부터 다시 시작하지 않고도 시간이 지남에 따라 새로운 범주의 개체를 추가 할 수 있습니다.

  • 에 대한 OP의 설명 은 머신 러닝 컨텍스트에서 한 가지 모델 적응 유형입니다.

  • 다른 사용자들은 원샷 학습 *이 또 다른 기계 학습 연구 분야라고 지적했다.

  • 또한, 은 다른 관점에서 자체 교육 모델을 다루므로 로봇이 시행 착오 실험을 수행하여 특정 문제를 해결하기위한 최적의 전략 (예 : 체스 게임)을 찾을 수 있습니다.

이 세 가지 머신 러닝 패러다임은 모두 머신이 새로운 컴퓨터 비전 작업에 어떻게 적응하는지 개선하는 데 도움이됩니다. 기계 학습 모델을 새로운 작업에 빠르게 적용하는 것은 활발한 연구 분야입니다. 그러나 이러한 프로젝트의 실제 목표 (새로운 악성 코드 식별, 여권 사진의 사기꾼 인식, 인터넷 색인 생성) 및 성공 기준은 세계에 대한 어린이 학습의 목표와 하나의 목표에 따라 달라지기 때문에 수학을 사용하는 컴퓨터와 다른 하나는 화학을 사용하여 유기 물질로 이루어지며, 둘 사이의 직접적인 비교는 어려움을 겪을 것입니다.


또한 CIFAR-10 문제를 해결하고 신경망을 훈련시켜 각각 10 개 예제에서 6000 개의 개체를 인식하는 방법을 연구하는 것은 흥미로울 것입니다. 그러나 훈련 데이터의 총량, 다양성 및 해결에 여전히 큰 불일치가 있기 때문에 이것은 2 살짜리와의 공평한 비교가 아닙니다.

* 현재 원샷 학습 또는 적은 샷 학습에 대한 태그는 없습니다.


34
좀 더 구체적으로 설명하기 위해, 인간 어린이는 이미 수십만 개의 예를 통해 수년간의 훈련을 받았으며, 다른 각도에서 볼 때 물체가 어떻게 보이는지, 경계를 식별하는 방법, 겉보기 크기와 실제 크기 사이의 관계를 결정할 수 있습니다 , 등등.
David Schwartz

25
아이의 뇌는 자궁 내에서 활동적 입니다. 아기는 소리가 물을 통해 걸러진 후에 소리로 부모 식별 할 수 있습니다 . 갓 태어난 아기는 태어나 기 전에 수개월 간의 데이터를 가지고 있었지만, 단어를 만들기 전에 몇 년이 더 필요하고 문장을 만들기 전에 몇 년이 더 필요합니다. 등등 ... 학습은 매우 복잡 합니다.
넬슨

5
@EelcoHoogendoorn 그것은 질문에 사용 된 대비 '자식'과 '신경망'을 설명합니다. 그 대답은 이것에만 있다는 명백한 대조. 신경망 은 아이들이 자동차를 인식하기 전에 많은 예제 (그러나 다른 방식으로)를 얻음으로써 많은 예제가 필요 하지 않습니다 .
Sextus Empiricus

4
@ 넬슨, 귀하의 의견에 대한 이유가 무엇인지 확실하지 않지만 '년'을 '년'으로 변경할 수 있습니다. 1 년의 어린이는 단어를 말하고 2 년은 첫 문장을 말하며 과거 시제 나 대명사와 같은 3 년의 문법이 올바르게 사용됩니다.
Sextus Empiricus

1
@EelcoHoogendoorn 나는 그 질문의 전제가 잘못된 비유에서 추론하는 경우라고 생각합니다. 생물학적 및 인공 신경망을 대조하는 것도 반응 적입니다. 왜냐하면 그 대답은 생물학적 및 인공 신경망이 이름에서 가장 유사하지만 ( "신경망"이라는 문구가 포함되어 있음) 본질적인 특성이나 적어도 특성이 비슷하지 않은 이유를 설명하기 때문입니다. 질문에 의해 가정됩니다.
Monica Monica 복원

49

우선, 2 살 때, 어린이는 세상에 대해 많은 것을 알고이 지식을 적극적으로 적용합니다. 어린이는이 지식을 새로운 개념에 적용하여 많은 "전이 학습"을합니다.

둘째,이 다섯 가지 "표지 된"자동차의 예를보기 전에 아이는 거리, TV, 장난감 자동차 등에서 많은 자동차를 보게되므로 많은 "비지도 학습"도 미리 발생합니다.

마지막으로 신경망은 인간의 뇌와 거의 공통점이 없으므로 비교할 필요가 없습니다. 또한 원샷 학습을위한 알고리즘이 있으며 이에 대한 많은 연구가 현재 진행되고 있습니다.


9
넷째, 어린이는 또한 효율적이고 정확하게 학습하기 위해 1 억년이 넘는 진화 적 선택을 가지고 있습니다.
csiz

39

현재 답변에서 볼 수없는 주요 측면 중 하나는 진화 입니다.

아이의 뇌는 처음부터 배우지 않습니다. 사슴과 기린 아기가 출생 몇 분 후에 어떻게 걸을 수 있는지 묻는 것과 비슷합니다. 그들은이 과제를 위해 이미 연결된 두뇌로 태어 났기 때문입니다. 물론 약간의 미세 조정이 필요하지만, 아기 사슴은 "무작위 초기화"에서 걷는 법을 배우지 않습니다.

마찬가지로 큰 움직이는 물체가 존재하고 추적하는 것이 중요하다는 사실은 우리가 태어난 것입니다.

그래서 나는이 질문의 전제가 거짓이라고 생각합니다. 인간의 신경망은 자동차가 아니라 움직이는 질감, 모양 등 어려운 3D 물체를 회전시킬 수있는 기회를 가졌지 만 이것은 많은 세대를 거쳐 이루어졌으며 진화 알고리즘, 즉 두뇌를 가진 학습에 의해 학습되었습니다. 이 작업을 위해 더 잘 구조화되었고, 더 높은 확률로 재현 할 수 있었으며, 차세대는 처음부터 더 좋고 더 나은 두뇌 배선을 남길 수있었습니다.


8
재미 있음 : 다른 자동차 모델을 구별 할 때 실제로 전문화 된 얼굴 인식 센터를 활용한다는 증거가 있습니다. 아이가 서로 다른 모델을 구별하지는 못하지만, 모바일 객체에 '얼굴'이 암시 적으로 존재하면 자동차가 생물 유형으로 분류되어 모바일을 인식하므로 진화로 식별되는 것이 유리할 수 있습니다. 얼굴이있는 물체는 생존에 도움이됩니다.
Dan Bryant

7
이 답변은 내가 생각한 것을 정확하게 설명합니다. 아이들은 빈 슬레이트 로 태어나지 않습니다 . 여기에는 일부 패턴을 더 쉽게 인식하고, 배우기 쉽게하는 등의 기능이 있습니다.
Eff

1
자궁에서 바로 걷는 동물은 실제로 매력적이지만, 그러한 진화론 적 하드와 이어링은 인간 학습과는 정반대의 극도로 여겨지고 있으며, 이는 자연계에서 극도의 경험 중심 학습으로 생각됩니다. 분명히 자동차는 우리의 두뇌 진화에 최소한의 영향을 미쳤을 것입니다.
Eelco Hoogendoorn

5
@EelcoHoogendoorn 환경을 배우고 이해하는 능력 은 진화 적으로 선택되었습니다. 두뇌는 학습에 매우 효율적으로 진화에 의해 설정되었습니다. 점들을 연결하고, 패턴을보고, 모양과 움직임을 이해하고, 추론하는 등의 능력
Eff

3
이것은 좋은 지적이지만, 연구원들이 이것을 이해하게되면 특정 유형의 학습을 용이하게하는 하드 코딩 된 구조를 가진 NN을 구축한다는 것도 사실입니다. • 그래도 고려 길쌈 NN가 하드 코딩 한 수용 필드 크게 / 학습 속도를 시각적 작업의 성능을 향상시킬 수 있습니다. 이러한 필드는 완전히 연결된 네트워크에서 처음부터 배울 수 있지만 훨씬 어렵습니다. @EelcoHoogendoorn, 인간의 두뇌는 학습을 촉진하는 구조 로 가득 합니다.
gung-Monica Monica 복원

21

신경망에 대해서는 잘 모르지만 아기에 대해서는 상당히 알고 있습니다.

많은 2 살짜리 아이들은 일반적인 단어가 어떻게되는지에 대해 많은 문제를 가지고 있습니다. 예를 들어, 그 나이에 아이들이 4 개의 다리가있는 동물에 "개"를 사용하는 것이 일반적입니다. 그것은 "차"보다 더 어려운 차이점입니다. 예를 들어 푸들과 큰 데인의 모습이 어떻게 다른지 생각해보십시오.

그리고 2 세의 어린이는 "자동차"의 5 가지가 넘는 많은 예를 보았습니다. 아이는 가족이 운전을 갈 때마다 수십 또는 수백 대의 자동차를 본다. 그리고 많은 부모님들이 "차를 봐"라고 5 번 이상 언급 할 것입니다. 그러나 아이들은 자신이 말하지 않은 방식으로 생각할 수도 있습니다. 예를 들어, 길거리에서 아이는 많은 것들이 줄 지어있는 것을 본다. 그의 아빠는 (하나의) "빛나는 차를 봐!"라고 말합니다. 그리고 아이는 "줄 지어있는 다른 것들도 모두 자동차 일까?"라고 생각합니다.


2
다른 예 : 택시, 운전 수업 및 경찰차는 동일합니다. 자동차가 빨간색이면 자동차입니다. 캠퍼 밴은 구급차입니다. 로더 크레인이 장착 된 트럭은 굴삭기로 분류됩니다. 방금 지나간 버스는 기차역으로갑니다. 따라서 다음 버스도 똑같이 보일 것입니다. 대낮에 달을 보는 것은 매우 특별한 행사입니다.
Sextus Empiricus

10

이것은 많은 질문에 대해 숙고 한 흥미로운 질문이며, 그 이유를 몇 가지 설명 할 수 있습니다.

  • 신경망은 뇌처럼 작동하지 않습니다. 역전 파는 신경망에 고유하며 뇌에서는 발생하지 않습니다. 그런 의미에서 우리는 뇌의 일반적인 학습 알고리즘을 알지 못합니다. 전기 일 수도 있고, 화학 일 수도 있고, 둘의 조합 일 수도 있습니다. 신경망은 뇌가 얼마나 단순화 되었기 때문에 우리의 뇌에 비해 열등한 형태의 학습으로 간주 될 수 있습니다.
  • 신경망이 실제로 우리의 뇌와 같다면, 인간 아기들은 초기에 특징 추출과 같은 초기 계층의 광범위한 "훈련"을 겪습니다. 따라서 신경망은 실제로 처음부터 교육을받는 것이 아니라 마지막 계층이 점점 더 많은 클래스와 레이블을 추가하도록 훈련되었습니다.

9

2 세의 어린이는 색상, 제조사 등에 관계없이 합리적인 정확도로 차량을 식별 할 수 있도록 약 5 대의 자동차가 필요합니다.

"인스턴스"의 개념은 쉽게 어두워집니다. 어린이는 5 개의 독특한 자동차 인스턴스를 보았지만 실제로는 다양한 환경에서 수천만 개의 프레임을 보았습니다. 그들은 다른 상황에서 자동차를 보았을 것입니다. 그들은 또한 평생 동안 발전된 물리적 세계에 대한 직감을 가지고 있습니다. 일부 전이 학습은 아마도 여기서 일어날 것입니다. 그러나 우리는이 모든 것을 "5 개의 인스턴스"로 마무리합니다.

한편 CNN에 전달하는 모든 단일 프레임 / 이미지는 "예"로 간주됩니다. 일관된 정의를 적용하면 두 시스템 모두 훨씬 더 비슷한 양의 훈련 데이터를 사용합니다.

또한 CNN (convolutional neural network)은 ANN보다 컴퓨터 비전에 더 유용하며 실제로 이미지 분류와 같은 작업에서 인간의 성능에 접근한다는 점에 주목하고 싶습니다. 딥 러닝은 만병 통치약은 아니지만 아마도이 영역에서 훌륭하게 수행됩니다.


5

다른 사람들이 지적한 것처럼 인공 신경 네트워크의 데이터 효율성은 세부 사항에 따라 상당히 다릅니다. 사실, 단일 샷 학습 방법이 많이 있는데, 단 하나의 라벨링 된 샘플 만 사용하여 트램의 라벨링 작업을 매우 정확하게 수행 할 수 있습니다.

이를 수행하는 한 가지 방법은 소위 전이 학습입니다. 다른 레이블에 대해 훈련 된 네트워크는 일반적으로 새로운 레이블에 매우 효과적으로 적용 할 수 있습니다. 어려운 작업으로 인해 이미지의 하위 수준 구성 요소가 현명하게 분해되기 때문입니다.

그러나 실제로 이러한 작업을 수행하기 위해 레이블이 지정된 데이터가 필요하지 않습니다. 아기처럼 당신이 생각하는 신경망과 거의 같은 라벨이 붙은 데이터가 필요하지 않습니다.

예를 들어, 다른 상황에서도 성공적으로 적용한 감독되지 않은 방법 중 하나는 레이블이없는 이미지 집합을 가져 와서 임의로 회전하고 이미지의 어느 쪽이 '위쪽'인지를 예측하도록 네트워크를 훈련시키는 것입니다. 가시 물체가 무엇인지 또는 소위 무엇인지 알지 못하면 네트워크는 이미지에 대한 엄청난 양의 구조를 배우게됩니다. 이는 훨씬 더 효율적인 데이터 후속 학습을위한 훌륭한 기초를 형성 할 수 있습니다.

인공 네트워크가 실제 전파와 유사 할 수있는 등의 의미있는 방식으로 실제 네트워크와는 상당히 다른 것이 사실이지만, 실제 신경 네트워크는 동일한 트릭을 사용하여 데이터의 구조는 몇 가지 간단한 이전에 암시되어 있습니다.

동물에서 거의 확실히 역할을하고 비디오를 이해하는 데 큰 도움이 된 또 다른 예는 미래를 과거로부터 예측할 수 있어야한다는 가정에 있습니다. 그 가정에서 시작하여 신경망에 많은 것을 가르 칠 수 있습니다. 또는 철학적 수준에서, 나는이 가정이 우리가 '지식'으로 간주하는 거의 모든 것의 기초가된다고 믿는 경향이 있습니다.

나는 여기서 새로운 것을 말하고 있지 않다. 그러나 이러한 가능성이 너무 어려서 많은 응용 프로그램을 아직 발견하지 못했으며 'ANN이 할 수있는 일'에 대한 교과서 이해에 아직까지 영향을받지 않았다는 점에서 상대적으로 새롭습니다. 따라서 OP 질문에 대답하기 위해; ANN은 이미 설명한 격차를 상당 부분 해소했습니다.


4

심층 신경망을 훈련시키는 한 가지 방법은이를 자동 인코더 ( Restricted Boltzmann Machines ) 의 스택으로 취급하는 것 입니다.

이론적으로, 자동 인코더는 감독되지 않은 방식으로 학습합니다. 임의의 레이블이없는 입력 데이터를 가져 와서 처리하여 출력 데이터를 생성합니다. 그런 다음 해당 출력 데이터를 가져 와서 입력 데이터를 재생성하려고합니다. 데이터의 라운드 트립에 가까워 질 때까지 노드의 매개 변수를 조정합니다. 당신이 그것에 대해 생각하면, 자동 인코더는 자체 자동화 단위 테스트를 작성하고 있습니다. 실제로 "레이블이없는 입력 데이터"를 레이블이 지정된 데이터 로 바꾸고 있습니다. 원본 데이터는 라운드 트립 된 데이터의 레이블로 사용됩니다.

자동 인코더 층이 훈련 된 후, 신경망은 라벨링 된 데이터를 사용하여 의도 된 기능을 수행하도록 미세 조정된다. 실제로, 이것은 기능 테스트입니다.

원래 포스터는 인공 신경망을 훈련시키기 위해 많은 양의 데이터가 필요한 이유를 묻고이를 2 살짜리 인간이 필요로하는 것으로 추정되는 적은 양의 훈련 데이터와 비교합니다. 원래 포스터는 사과와 오렌지를 비교하고 있습니다. 인공 신경망에 대한 전반적인 훈련 과정과 2 살짜리 어린이를위한 라벨을 이용한 미세 조정 과정.

그러나 실제로 2 살짜리 아이는 2 년 이상 임의의 자체 라벨링 된 데이터에 대해 자동 인코더를 훈련 해 왔습니다. 아기 는 자궁에 있을 때 꿈을 꿉니다 . (고양이도 마찬가지이다.) 연구원들은 이러한 꿈이 시각 처리 센터에서 임의의 뉴런 발사를 포함하는 것으로 설명했다.


1
합의 실제로 자동 엔코더는 많은 비지도 학습을 수행하는 데 매우 강력한 도구가 아닙니다. 우리가 아는 모든 것들이 더 진행되고 있음을 지적하므로 '2 살짜리가 자동 인코더를 훈련했습니다'라는 문구는 말 그대로 너무 취해서는 안됩니다.
Eelco Hoogendoorn

4

우리는 볼 것을 배우기 전까지는 "자동차를 보는 ​​법"을 배우지 않습니다

어린이가 물건을 보는 방법을 배우려면 꽤 오랜 시간이 걸리고 많은 예가 필요합니다. 그 후, 어린이는 몇 가지 예에서 특정 유형 의 물체 를 식별 하는 법을 배울 수 있습니다 . 두 살짜리 아이를 말 그대로 빈 슬레이트에서 시작하는 학습 시스템과 비교하면 사과와 오렌지 비교입니다. 그 나이에 아이는 수천 시간의 "비디오 영상"을 보았습니다.

비슷한 방식으로 인공 신경망은 "보는 방법"을 배우기 위해 많은 예제를 필요로하지만 그 지식을 새로운 예제로 옮길 수 있습니다. 전이 학습은 머신 러닝의 전체 영역이며 "원샷 학습"과 같은 것이 가능합니다. 예를 들어 이전에 보지 못한 새로운 유형의 객체를 식별하거나 얼굴의 단일 사진에서 특정 사람. 그러나이 "처음으로 배우기"부분을 잘 수행하려면 많은 양의 데이터가 필요합니다.

또한, 모든 훈련 데이터가 동일하지 않다는 증거가 있습니다. 즉, 학습하면서 "선택"한 데이터가 단순히 귀하에게 제공되는 데이터보다 더 효과적이라는 증거가 있습니다. 예 : Held & Hein 트윈 새끼 고양이 실험. https://www.lri.fr/~mbl/ENS/FONDIHM/2013/papers/about-HeldHein63.pdf


4

지금까지 답변에서 보지 못한 것 중 하나는 인간 어린이가 보는 실제 물체의 하나의 '인스턴스'가 NN 훈련의 맥락에서 인스턴스에 해당하지 않는다는 사실입니다.

5 살짜리 아이가있는 철도 교차로에 서 있고 10 분 이내에 5 개의 기차가 지나가는 것을 봅니다. "내 아이는 기차를 5 개만 보았고 NN에는 수천 개의 이미지가 필요한 동안 다른 기차를 확실하게 식별 할 수 있습니다!"라고 말할 수 있습니다. 이것이 사실 일 수도 있지만, 자녀가 보는 모든 열차에는 열차의 단일 이미지보다 더 많은 정보가 포함되어 있다는 사실을 완전히 무시하고 있습니다. 실제로, 자녀의 두뇌는 기차가 지나가는 동안 각기 약간 다른 각도, 그림자 등에서 수십 개의 기차 이미지를 처리하는 반면 단일 이미지는 NN에 매우 제한된 정보를 제공합니다. 이와 관련하여, 자녀에게는 기차 속도 나 기차 소리와 같이 NN에서 사용할 수없는 정보도 있습니다.

또한, 자녀는 대화하고 질문을 할 수 있습니다! "기차가 매우 길지요?" "예." "그리고 그들은 너무 큽니까?" "예.". 두 가지 간단한 질문으로 자녀는 1 분 안에 두 가지 매우 중요한 기능을 배울 수 있습니다!

또 다른 중요한 점은 물체 감지입니다. 자녀는 어떤 객체, 즉 이미지의 어느 부분에 초점을 맞춰야 하는지를 즉시 식별 할 수 있으며, NN은 분류를 시도하기 전에 관련 객체를 감지하는 방법을 배워야합니다.


3
나는 또한 아이가 상황을 가지고 있다고 덧붙일 것이다 . 레일 위의 기차, 역, 수평 교차점 등을 본다. 하늘에 기차처럼 보이도록 거대한 (제플린 크기) 풍선 모양과 페인트가 보이면, 기차라고하지 않습니다. 기차처럼 보이지만 "train"이라는 레이블은 붙지 않습니다. 이 경우 NN은 "기차 모양의 풍선"이라는 레이블을 반환합니다. 마찬가지로, 어린이는 기차가 달린 빌보드를 실제 기차로 착각하지 않습니다. 열차 사진은 NN 열차 사진입니다. 레이블 "기차"를 반환합니다.
corey979

3

나는 성능이 기대했던 것과 다르지 않다고 주장하지만 큰 질문을한다 (마지막 단락 참조).

전이 학습에 대해 언급 할 때 : 사과와 사과를 비교하기 위해 우리는 총 몇 장의 그림과 사람 / 신경망에 보이는 관심 클래스의 그림 수를 볼 수 있습니다.

1. 인간은 몇 장의 사진을 봅니까?

인간의 안구 운동은 약 200ms 정도 걸리며 일종의 "생물학적 사진"으로 볼 수 있습니다. : 컴퓨터 비전 전문가 페이 페이 리로 이야기를 참조하십시오 https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures#t-362785을 .

그녀는 다음을 추가합니다.

3 살이되자 어린이는 수억 장의 사진을 보았을 것입니다.

물체 감지를위한 최고의 데이터베이스 인 ImageNet에는 ~ 1400 만 개의 레이블이있는 그림 있습니다. 따라서 ImageNet에서 훈련되는 신경망은 14000000 / 5 / 60 / 60 / 24 * 2 ~ 64 일 된 아기만큼 많은 사진을 보았을 것입니다. 이 그림들 중 몇 장에 라벨이 붙어 있는지 알기가 어렵습니다. 또한, 아기가 보는 그림은 ImageNet처럼 다양하지 않습니다. (아마도 아기는 어머니의 시간을 보았을 것입니다 ...;). 그러나 나는 당신의 아들이 수억 장의 그림을 보았을 것이라고 말한 다음 공정한 학습을 ​​적용한다고 생각합니다.

그렇다면 (이동) 배울 수있는 탄탄한 관련 그림이 주어지면 새로운 범주를 배우려면 얼마나 많은 그림이 필요합니까?

내가 찾은 첫 번째 블로그 게시물은 https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html 입니다. 수업 당 1000 개의 예제를 사용합니다. 2.5 년이 지나도 더 적은 비용이 필요하다고 상상할 수있었습니다. 그러나 1000 분의 그림은 3.3 분 안에 1000/5/60에서 사람이 볼 수 있습니다.

당신은 썼습니다 :

2 세의 어린이는 색상, 제조사 등에 관계없이 합리적인 정확도로 차량을 식별 할 수 있도록 약 5 대의 자동차가 필요합니다.

인스턴스 당 40 초에 해당합니다 (해당 객체의 다양한 각도로 비교 가능).

요약 하면, 내가 언급했듯이 몇 가지 가정을해야했습니다. 그러나 나는 생각할 수 있듯이 성능이 다르지 않다는 것을 알 수 있습니다.

그러나 나는 당신이 큰 질문을 믿으며 여기에 이유가 있습니다.

2. 신경망이 뇌와 비슷하게 작동한다면 더 나은 / 다른 성능을 발휘할 수 있습니까? (Geoffrey Hinton은 그렇습니다).

2018 년 말 https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/ 와의 인터뷰 에서 그는 신경망의 현재 구현을 뇌와 비교합니다. 그는 무게 측면에서 인공 신경망이 뇌보다 10.000 배나 작다고 언급했다. 따라서 뇌는 학습하는 데 필요한 반복 횟수가 줄어 듭니다. 인공 신경 네트워크를 가능하게하기 위해 우리 뇌와 비슷하게 작동하려면 Graphcore라는 영국 기반 스타트 업인 하드웨어의 또 다른 트렌드를 따릅니다. 신경망의 가중치를 스마트하게 저장하여 계산 시간을 줄입니다. 따라서 더 많은 가중치를 사용할 수 있으며 인공 신경망의 교육 시간이 단축 될 수 있습니다.


2

나는 이것에 대한 전문가입니다. 나는 인간이고, 나는 아기 였고, 차가 있고, AI를합니다.

아기가 훨씬 더 제한된 예를 들어 자동차를 픽업하는 이유는 직관입니다. 인간의 뇌에는 이미 3D 회전을 다루는 구조가 있습니다. 또한 깊이 매핑을위한 시차를 제공하여 실제로 도움이되는 두 개의 눈이 있습니다. 그림에 실제 깊이가 없기 때문에 자동차와 자동차 그림 사이에 직관이 가능합니다. Hinton (AI 연구원)은보다 직관적으로 처리 할 수있는 Capsule Networks의 아이디어를 제안했습니다. 불행히도 컴퓨터의 경우 훈련 데이터는 (일반적으로) 2D 이미지, 평평한 픽셀의 배열입니다. 과적 합하지 않기 위해서는 많은 데이터가 필요하므로 이미지에서 자동차의 방향이 일반화됩니다. 아기의 뇌는 이미 이것을 할 수 있으며 어떤 방향 으로든 차를 인식 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.