CNN에서 필터 크기, 보폭 등을 선택합니까?

12

스탠포드의 CS231N 강의를보고 있었고 CNN 아키텍처의 일부 문제를 해결하려고 노력하고 있습니다. 내가 이해하려고하는 것은 컨볼 루션 필터 크기와 보폭과 같은 것들을 선택하기위한 일반적인 지침이 있거나 이것이 과학보다 예술입니까?

풀링은 주로 어떤 형태의 번역 불일치를 모델로 유도하기 위해 존재한다는 것을 이해합니다. 반면에, 보폭이 어떻게 선택되는지에 대한 좋은 직감이 없습니다. 현재 레이어 크기를 압축하거나 뉴런에 대한 더 큰 수용 장을 달성하려는 것을 제외하고 다른 지침이 있습니까? 누구든지 이것을 논의하는 좋은 논문이나 비슷한 것을 알고 있습니까?

neural-networks deep-learning conv-neural-network

— dst
소스

9

당신이 이름을 짓는 모든 문제에 대한 입문 텍스트로 딥 러닝 북을 추천합니다 . 필드의 광범위한 개요를 제공합니다. 각 매개 변수의 역할에 대해 설명합니다.

제 생각에는 가장 인기있는 아키텍처 (resnet, inception, alex-net)에 대해 읽고 디자인 결정에 이르는 주요 아이디어를 추출하는 것이 매우 도움이됩니다. 위에서 언급 한 책을 읽은 후.

강의 강의 계획서에서 컨볼 루션 레이어가 많은 수의 매개 변수 (무게, 바이어스) 및 뉴런을 추가하는 방법에 대해 자세히 설명합니다. 이 레이어는 일단 훈련되면 이미지에서 의미 패턴을 추출 할 수 있습니다. 하위 레이어의 경우 해당 필터는 에지 추출기처럼 보입니다. 상위 계층의 경우 이러한 기본 모양이 결합되어보다 복잡한 형식을 설명합니다. 이러한 필터에는 많은 수의 매개 변수와 복잡한 양식을 설명하고 여전히 매개 변수 수를 줄일 수있는 방법으로 딥 네트워크를 설계하는 데 큰 문제가 있습니다.

인접한 픽셀은 (특히 가장 낮은 레이어에서) 밀접하게 연관되어 있기 때문에 필터 응답을 서브 샘플링 (풀링)하여 출력 크기를 줄이는 것이 좋습니다. 2 개의 픽셀이 더 멀어 질수록 서로 관련이 적습니다. 따라서 풀링 계층에서 큰 보폭은 높은 정보 손실로 이어집니다. 느슨하게 말하면서. 풀링 레이어의 보폭은 2이고 커널 크기는 2x2입니다.

보다 복잡한 접근 방식은 희소성을 높이고 더 깊은 네트워크를위한 시작 모듈과 컨볼 루션 레이어의 매개 변수 수를 교환하여 더 높은 정확도를 달성 할 수있는 개념 인 Inception 네트워크 ( 컨볼 루션으로 심화됨 )입니다.

현재 아키텍처에 대한 힌트와 체계적이고 체계적인 방식으로 일부 디자인 차원의 역할에 대한 힌트를 제공하는 좋은 논문은 SqueezeNet : 매개 변수가 50 배 더 적고 모델 크기가 0.5MB 미만인 AlexNet 수준의 정확도입니다 . 이전에 언급 한 모델에 도입 된 아이디어를 기반으로합니다.

— jpmuc
소스

1

학습 시간에 비해 더 나은 학습을 고려한다면 이러한 커널과 보폭을 제안하고 싶습니다.

필터 크기에 대해서는 이미지 특성에 따라 다릅니다. 예를 들어, 네트워크가 객체를 인식하려면 많은 양의 픽셀이 필요합니다. 더 큰 필터를 사용할 수 있습니다. 반면에 객체가 다소 작거나 로컬 기능인 경우 입력 이미지 크기에 비해 더 작은 필터를 적용하는 것이 좋습니다.

보폭의 경우 작은 보폭은 입력 이미지의 미세한 세부 사항을 캡처하는 데 더 좋습니다.

나에게 풀링의 이점은 이미지의 가장 선명한 기능을 추출한다는 것입니다. 일반적으로 가장 선명한 기능은 이미지의 가장 낮은 레벨 표현처럼 보입니다.

— 클라우드 초
소스