이 질문은 "컨볼 루션 레이어가 정확히 어떻게 작동 하는가"로 요약됩니다 .
그레이 스케일 이미지 가 있다고 가정 합니다. 따라서 이미지에는 하나의 채널이 있습니다. 첫 번째 레이어에서는 필터와 패딩 으로 컨벌루션을 적용합니다 . 그런 다음 회선 및 필터 가있는 다른 회선 레이어가 있습니다. 기능 맵은 몇 개입니까?3 × 3 k 1 5 × 5 k 2
타입 1 컨볼 루션
첫 번째 레이어가 실행됩니다. 그 후 기능 맵을 갖 (각 필터 당 하나씩). 각각의 크기는 입니다. 모든 단일 픽셀은 패딩 된 입력 이미지에서 픽셀을 만들어졌습니다 . n × m 3 ⋅ 3 = 9
그런 다음 두 번째 레이어가 적용됩니다. 모든 단일 필터는 각 기능 맵 에 개별적으로 적용됩니다 . 이러한 결과 기능은 모든 맵을 기능지도. 따라서 두 번째 레이어 다음에 기능 맵이 있습니다. 각각의 새로운 피쳐 맵의 모든 단일 픽셀은 이전부터 패딩 된 피쳐 맵의 "픽셀"을 취함으로써 생성되었습니다 .k 1 k 1 × k 2 5 ⋅ 5 = 25
시스템은 매개 변수 를 학습 합니다.
2.1 형 컨볼 루션
전과 같이 : 첫 번째 레이어가 실행됩니다. 그 후 기능 맵을 갖 (각 필터 당 하나씩). 각각의 크기는 입니다. 모든 단일 픽셀은 패딩 된 입력 이미지에서 픽셀을 만들어졌습니다 . n × m 3 ⋅ 3 = 9
이전과 달리 : 두 번째 레이어가 적용됩니다. 모든 단일 필터는 동일한 지역에 적용되지만 이전부터 모든 기능 맵 이 적용됩니다 . 결과적으로 두 번째 레이어가 실행 된 후 총 기능 맵 이 생성됩니다 . 각각의 새로운 피쳐 맵의 모든 단일 픽셀은 이전부터 패딩 된 피쳐 맵의 "픽셀"을 가져 생성되었습니다 .k 2 ⋅ 5 ⋅ 5 = 25 ⋅ k 2
시스템은 매개 변수 를 학습 합니다.
2.2 컨볼 루션
위와 같이 필터 당 매개 변수를 가져 와서 다른 입력 기능 맵에 대해 배우고 간단히 복사해야하는 매개 변수를 배워야합니다.
의문
- 유형 1 또는 유형 2가 일반적으로 사용됩니까?
- Alexnet 에서 어떤 유형이 사용 됩니까 ?
- GoogLeNet 에서 어떤 유형이 사용 됩니까 ?
- 타입 1이라고하면 : 왜 컨볼 루션이 의미가 있습니까? 데이터에 상수 만 곱하지 않습니까?
- 유형 2를 말하는 경우 : 2 차 비용을 설명하십시오 (예를 들어, 심층 비전 네트워크에서 2 개의 컨볼 루션 레이어가 연결되어있는 경우 필터 수가 균일하게 증가하면 2 차 계산이 증가합니다).
모든 답변에 대해 귀하의 답변이 옳다는 증거 (종이, 교과서, 프레임 워크 문서)를 제공하십시오.
보너스 질문 1
풀링은 항상 기능 맵마다 적용됩니까? 아니면 여러 기능 맵에서도 수행됩니까?
보너스 질문 2
나는 타입 1이 정확하고 GoogLe 종이에 문제가 있다고 확신합니다. 그러나 3D 컨볼 루션도 있습니다. 크기가 인 1337 개의 피쳐 맵이 있고 필터 를 적용 한다고 가정하겠습니다 . 기능 맵 위로 필터를 어떻게 슬라이드합니까? (왼쪽에서 오른쪽으로, 위에서 아래로, 첫 번째 기능 맵에서 마지막 기능 맵으로?) 구성 적으로 수행하는 한 중요합니까?3 × 4 × 5
내 연구
- 위의 두 논문을 읽었지만 여전히 무엇이 사용되는지 잘 모르겠습니다.
- 라자냐 문서를 읽었습니다.
- theano 문서를 읽었습니다.
- 컨볼 루션 신경망 이해 에 대한 답변을 읽었습니다 (모든 링크를 따르지 않고)
- Convolutional Neural Networks (LeNet)을 읽었습니다 . 특히 그림 1은 Type 2.1이 올바른 것을 비교적 확실하게 보여줍니다. 이것은 GoogLe Net의 "이차 비용"의견과 Caffee에 대한 실제 경험에 적합합니다.