깊은 잔상 네트워크를 네트워크의 앙상블로 간주해야합니까?


12

문제는 Deep Residual Networks ( ResNets ) 의 아키텍처에 관한 것 입니다. 5 개 주요 트랙 모두 에서 "Large Scale Visual Recognition Challenge 2015"(ILSVRC2015) 에서 1 위를 차지한 모델 :

이 작업은 다음 기사에서 설명합니다.

이미지 인식을위한 딥 레지던트 학습 (2015, PDF)


Microsoft Research 팀 (ResNets 개발자 : Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) :

" 심층 잔여 네트워크의 아이디 매핑 (2016) "

깊이 가 핵심적인 역할을 한다고 말합니다 .

" 우리는 단순하지만 필수적인 개념을 통해 이러한 결과를 얻습니다. 더 깊어집니다.이 결과는 깊이 한계를 뛰어 넘을 가능성을 보여줍니다. "

프레젠테이션 에서도 강조됩니다 (더 깊을수록 좋습니다).

- "깊은 모델 일수록 더 높은 트레이닝 오류가 없어야합니다."
- "Deeper ResNets는 훈련 오류가 낮고 시험 오류도 낮습니다."
- "Deeper ResNets의 오류가 더 낮습니다."
- "모두 더 깊은 기능을 통해 더 많은 혜택을 누리십시오 – 누적 이득!"
- "디퍼는 여전히 낫다."

34 레이어 잔차의 구조는 다음과 같습니다 (참조 용). 여기에 이미지 설명을 입력하십시오


그러나 최근에 나는 잔상 네트워크가 지수 앙상블임을 보여주는 새로운 해석을 소개하는 한 가지 이론을 발견했습니다.

잔여 네트워크는 상대적으로 얕은 네트워크의 지수 적 앙상블입니다 (2016)

Deep Resnet은 출력이 다양한 깊이로 풀링되는 많은 얕은 네트워크로 설명됩니다. 기사에 그림이 있습니다. 설명과 함께 첨부합니다 :

여기에 이미지 설명을 입력하십시오잔여 네트워크는 일반적으로 (a)로 표시되며, 이는 수학 식 1의 자연스러운 표현입니다. 이 공식을 식 (6)으로 확장하면 3 블록 잔차 네트워크 (b)에 대한 설명을 얻을 수 있습니다. 이 관점에서, 잔류 네트워크는 입력과 출력을 연결하는 O (2 ^ n) 암시 적 경로를 가지며 블록을 추가하면 경로 수가 두 배가된다는 것이 명백합니다.

기사의 결론에 다음과 같이 명시되어 있습니다.

깊이는 아니지만 잔상 네트워크를 강력하게 만드는 앙상블입니다 . 잔여 네트워크는 네트워크 깊이가 아니라 네트워크 다중성의 한계를 뛰어 넘습니다. 우리가 제시 한 풀리지 않은 견해와 병변 연구는 잔류 네트워크가 기하 급수적으로 많은 네트워크의 암시 적 앙상블임을 보여줍니다. 그래디언트에 기여하는 대부분의 경로가 네트워크의 전체 깊이에 비해 매우 짧은 경우, 깊이 증가 만 잔류 네트워크 의 주요 특성될 수 없습니다 . 우리는 이제 경로 수의 측면에서 네트워크의 표현 성인 다중성 (multiplicity )이 핵심적인 역할을 한다고 믿습니다 .

그러나 확인되거나 반박 할 수있는 것은 최근의 이론 일뿐입니다. 때로는 일부 이론이 반박되고 기사가 철회되는 경우가 있습니다.


깊은 ResNet을 결국 앙상블로 생각해야합니까? 앙상블 또는 깊이로 인해 잔류 네트워크가 그렇게 강력합니까? 개발자 자신조차도 자신의 모델이 무엇을 나타내는 지, 그리고 그 주요 개념이 무엇인지 인식하지 못할 가능성이 있습니까?

답변:


4

지니가 당신에게 세 가지 소원을 준다고 상상해보십시오. 야심 찬 딥 러닝 연구원이기 때문에 첫 번째 소망은 노트북에 즉시 나타나는 Image Net 용 1000 계층 NN을위한 완벽한 솔루션입니다.

지니 유도 솔루션은 앙상블로 해석 될 수있는 직관을 제공하지 않지만, 고양이를 개와 구별하기 위해 1000 개의 추상화 계층이 필요하다고 정말로 믿습니까? "앙상블 논문"의 저자들이 언급했듯이, 이것은 생물학적 시스템에서는 사실이 아닙니다.

물론 솔루션을 네트워크의 앙상블로 분해하여 두 번째 소원을 낭비 할 수 있으며 지니가 준수 할 수 있다고 확신합니다. 딥 네트워크의 힘의 일부인 이유는 항상 앙상블 효과에서 비롯됩니다.

따라서 딥 네트워크, 드롭 아웃 및 잔차 네트워크를 훈련시키는 두 가지 매우 성공적인 트릭이 암시 적 앙상블로 즉각 해석된다는 것은 놀라운 일이 아닙니다. 따라서 "심도는 없지만 앙상블"은 잘못된 이분법으로 생각 나게합니다. 당신이 정직하게 믿는다면 인간의 정확성으로 이미지를 분류하기 위해 수백 또는 수천 레벨의 추상화가 필요하다고 정말로 말할 것입니다.

나는 당신이 다른 것을 위해 마지막 소원을 사용하는 것이 좋습니다.


0

tanh와 같은 많은 비선형성에 대한 랜덤 잔차 네트워크는 혼돈의 가장자리에 산다. 두 입력 벡터의 코사인 거리는 바닐라 tanh 네트워크와 같이 지수 속도가 아닌 다항식 속도로 고정 된 포인트로 수렴된다. 따라서 일반적인 잔차 네트워크는 안정된 카오스 경계를 ​​깊이로 천천히 가로 지르며 여러 레이어에 대해이 경계 주위를 맴 돕니 다. 기본적으로 입력 공간의 형상을 "매우 빨리"잊어 버리지 않습니다. 그래서 우리가 그것들을 상당히 깊게 만들더라도 바닐라 네트워크가 더 잘 작동합니다.

잔차 네트워크의 정보 전파에 대한 자세한 내용- 평균 필드 잔차 네트워크 : 혼돈의 가장자리

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.