게시 한 두 번째 CNN (Convolutional Neural Network) 아키텍처는 이 백서 에서 제공됩니다 . 논문에서 저자들은 레이어 S2와 C3 사이에서 일어나는 일에 대해 설명합니다. 그들의 설명은 명확하지 않습니다. 이 CNN 아키텍처는 '표준'이 아니며 CNN의 첫 번째 예로 혼란 스러울 수 있습니다.
28 × 285 × 5미디엄× M엔× N미디엄≥ N( M− N+ 1 ) × ( M− N+ 1 )
레이어 S2와 레이어 C3 사이에 일어나는 일은 다음과 같습니다. 레이어 C2에는 레이어 S2에있는 6 개의 피쳐 맵에서 생성 된 16 개의 피쳐 맵이 있습니다. 레이어 C3 의 필터 수 는 실제로 명확하지 않습니다. 실제로 아키텍처 다이어그램에서만 16 개의 피쳐 맵을 생성하는 정확한 필터 수를 판단 할 수 없습니다. 이 논문의 저자는 다음 표를 제공합니다 (8 페이지).
표와 함께 다음 설명을 제공합니다 (7 페이지 하단).
5 × 5
표에서 저자는 계층 C3의 모든 기능 맵이 3 개 이상의 기능 맵을 결합하여 생성됨을 보여줍니다 (8 페이지).
처음 6 개의 C3 기능 맵은 S2에서 3 개의 기능 맵의 모든 연속 서브 세트에서 입력을받습니다. 다음 6 개는 4 개의 모든 연속 된 부분 집합에서 입력을받습니다. 다음 3 개는 4 개의 불연속 서브 세트에서 입력을받습니다. 마지막으로 마지막 것은 모든 S2 기능 맵에서 입력을받습니다.
레이어 C3에 몇 개의 필터가 있습니까? 불행히도, 그들은 이것을 설명하지 않습니다. 가장 간단한 두 가지 가능성은 다음과 같습니다.
- C3 기능 맵마다 S2 기능 맵당 하나의 필터가 있습니다. 즉, 동일한 C3 기능 맵과 연관된 S2 기능 맵간에 필터 공유가 없습니다.
- C3 기능 맵마다 하나의 필터가 있으며이 필터는 결합 된 레이어 S2의 (3 개 이상) 기능 맵에서 공유됩니다.
두 경우 모두 '결합'한다는 것은 S2 기능 맵 그룹 별 컨볼 루션 결과를 결합하여 생성 된 C3 기능 맵을 작성해야 함을 의미합니다. 저자는이 작업을 수행하는 방법을 지정하지는 않지만 추가하는 것이 일반적으로 선택됩니다 (예 : 이 페이지 중앙 근처의 애니메이션 GIF 참조) .
그러나 저자는 아키텍처를 해독하는 데 도움이되는 추가 정보를 제공합니다. '레이어 C3에는 1,516 개의 학습 가능한 매개 변수가 있습니다'(8 페이지)라고 말합니다. 이 정보를 사용하여 위의 사례 (1)과 (2)를 결정할 수 있습니다.
( 6 × 3 ) + ( 9 × 4 ) + ( 1 × 6 ) = 60( 14 − 10 + 1 ) × ( 14 − 10 + 1 ) = 5 × 55 × 5 × 60 = 1 , 5001 , 500 + 16 = 1 , 516( 5 × 5 × 16 ) + 16 = 416
따라서, 위의 표 I을 다시 살펴보면 각 S2 기능 맵과 연관된 10 개의 개별 C3 필터가 있습니다 (따라서 총 60 개의 개별 필터).
저자는 이러한 유형의 선택을 설명합니다.
[C3 레이어에있는] 다른 피처 맵은 서로 다른 입력 세트를 가져 오기 때문에 서로 다른 (보완 적으로 보완적인) 피처를 추출해야합니다.
이것이 상황을 분명히하기를 바랍니다.