LeNet의 뉴런 수용 영역


9

CNN의 수용 분야를 더 잘 이해하려고합니다. 이를 위해 LeNet에서 각 뉴런의 수용 장을 계산하고 싶습니다. 일반적인 MLP의 경우 다소 쉽지만 ( http://deeplearning.net/tutorial/lenet.html#sparse-connectivity 참조 ) 하나 이상의 회선 레이어와 다음 레이어에서 뉴런의 수용 필드를 계산하는 것이 더 어렵습니다. 풀링 레이어.

2. 컨볼 루션 레이어에서 뉴런의 수용 영역은 무엇입니까? 다음 서브 샘플링 / 풀링 계층에서 얼마나 더 큽니까? 그리고 이것을 계산하는 공식은 무엇입니까?


1
관련 사이드 바는 이 질문을 제안 했는데, 이는 귀하가 생각하고 흥미로운 종류와 관련이 있습니다.
Dougal

답변:


2

컨볼 루션 네트를 표준 MLP의 인스턴스로 생각하면 연결 예제와 정확히 동일한 방식으로 수용 필드를 파악할 수 있습니다.

컨볼 루션 레이어는 본질적으로이 이미지에서와 같이 반복되는 패턴이 많은 레이어의 줄임말입니다 ( 이 답변 에서 원래 여기에서 ).

컨볼 루션의 시각적 예

해당 이미지의 각 "대상 픽셀"은 입력이 소스 이미지의 파란색 사각형 인 뉴런에 해당합니다. 네트워크 아키텍처에 따라 컨벌루션은 이와 같은 픽셀에 정확하게 해당하지 않을 수도 있지만 같은 생각입니다. 모든 컨볼 루션 뉴런에 대한 입력으로 사용되는 가중치는 연결되어 있지만 여기서 생각하는 것과는 관련이 없습니다.

풀링 뉴런은 각 입력의 수용 필드를 결합하여 동일한 방식으로 생각할 수 있습니다.


멋진 시각화! 귀하의 예는 완벽합니다. 컨볼 루션 레이어 뒤에 2x2 풀링 레이어를 추가하면 풀링 레이어의 각 뉴런은 컨 벌루 셔널 레이어의 뉴런이 겹치면서 4 개의 3x3 필드를 혼합하더라도 4x4의 수용 필드 만 갖게됩니다. 풀링 크기 등을 기반으로 수용 필드에 대한 간단한 수식을 만들 수 있습니다. 그러나 수용 필드도 이제 폴링 계층의 보폭에 따라 달라지기 때문에 다음 컨볼 루션 레이어의 경우 더 복잡합니다. RF의 공식은 무엇입니까?
pir

소스 픽셀의 파란색 사각형이 수용 필드의 크기입니까?
Charlie Parker

나는 "Faster R-CNN : Region Proposal Networks를 이용한 실시간 객체 탐지를 향한"이라는 논문에서 같은 질문을 가지고있다. 그것은 3.1 절에서 ZF와 VGG16의 수용 영역은 171과 228이지만 네트워크 구성에서 누군가 나를 위해 이것을 정리할 수 있기를 바랍니다.
Chan Kim

0

Faster-rcnn에서 유효 수용 필드는 다음과 같이 계산할 수 있습니다 (VGG16).

Img->
Conv1 (3)-> Conv1 (3)-> Pool1 (2) ==>
Conv2 (3)-> Conv2 (3)-> Pool2 (2) ==>
Conv3 (3)-> Conv3 (3 )-> Conv3 (3)-> Pool3 (2) ==>
Conv4 (3)-> Conv4 (3)-> Conv4 (3)-> Pool4 (2) ==>
Conv5 (3)-> Conv5 (3 )-> Conv5 (3) ====>
기능 맵의 3 * 3 창.
단순성을 위해 하나의 차원을 취할 수 있습니다. 크기 3에서 다시 가져 오면 원래 수용 필드는
1)입니다. 전환 5의 시작 부분에서 : 3 + 2 + 2 + 2 = 9
2). Conv4의 시작 부분에서 : 9 * 2 + 2 + 2 + 2 = 24
3). Conv3의 시작 부분에서 : 24 * 2 + 2 + 2 + 2 = 54
4). Conv2 시작 부분 : 54 * 2 + 2 + 2 = 112
5). Conv1 시작시 (원래 입력) : 112 * 2 + 2 + 2 = 228

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.