CNN에서 "커널"과 "필터"의 차이점

37

컨볼 루션 신경망의 맥락에서 용어 "커널"과 "필터"의 차이점은 무엇입니까?

— 라이가
소스

5

그들은 동일합니다! 필터 또는 커널은 입력 공간 전체에서 공유되는 간단한 가중치 그룹입니다.

— yasin.yazici

42

컨볼 루션 뉴럴 네트워크의 맥락에서 커널 = 필터 = 기능 검출기.

다음은 스탠포드의 딥 러닝 튜토리얼 ( Denny Britz에 의해 잘 설명되어 있음 )의 훌륭한 그림입니다 .

필터는 노란색 슬라이딩 창이며 그 값은 다음과 같습니다.

[\begin{matrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{matrix}]

$\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{bmatrix}$

— 프랭크 데논 코트
소스

2

필터의 특정 이름이 있습니까? "블러"또는 "가장자리 감지"처럼

— Pratik Khadloya

2

@PratikKhadloya 아니오, 그 이름은 필터가 감지 한 것으로 보이는 것에 기초하여 연구자들에 의해 주관적으로 주어집니다.

— shadowtalker

1

@Frank Dernoncourt이 링크에 따라 towardsdatascience.com/... 우리가 채널의 몇이있을 때 그들은 다르다. 실제로 여러 채널이있을 때 각 필터는 실제로는 커널의 모음으로 이루어지며, 계층에 대한 모든 단일 입력 채널에 대해 하나의 커널이 있으며 각 커널은 고유합니다. 나는 당신의 아이디어를

— 기뻐할

6

기능 맵은이 특정 컨텍스트에서 필터 또는 "커널"과 동일합니다. 필터의 무게에 따라 감지되는 특정 기능이 결정됩니다.

예를 들어, Franck는 훌륭한 비주얼을 제공했습니다. 그의 필터 / 기능 탐지기는 대각선 요소를 따라 x1을, 다른 모든 요소를 따라 x0을 갖습니다. 이 커널 가중치는 이미지의 대각선을 따라 값이 1 인 이미지의 픽셀을 감지합니다.

결과로 얽힌 피처는 3x3 필터의 대각선 값을 따라 이미지에 "1"이있는 경우 (그러므로 이미지의 특정 3x3 섹션에서 필터를 감지하는 경우) 4의 값을 표시하고 해당 필터가 강력하게 일치하지 않은 이미지

— 조니 유타
소스

4

$k \times k \times C$ $C$ $C$ $H_{in} \times H_{in} \times C$ $32 \times 32$ RGB 이미지). 2D 배열간에 곱셈이 발생하고 결과가 합산되어 3D 연산을 계산하기 때문에 다른 단어를 사용하여 가중치의 2D 배열과 가중치의 3D 구조에 대해 다른 단어를 사용하는 것이 좋습니다.

현재이 분야의 명명법에 문제가 있습니다. 동일한 개념을 설명하는 많은 용어가 있으며 다른 개념에 대해 상호 교환 가능하게 사용되는 용어도 있습니다! 컨벌루션 레이어의 출력을 설명하는 데 사용되는 용어 : 기능 맵, 채널, 활성화, 텐서, 평면 등을 예로 들어 보겠습니다.

위키 백과를 기반으로 한 "이미지 처리에서 커널은 작은 매트릭스"입니다.

wikipedia에 따르면, "행렬은 행과 열로 배열 된 직사각형 배열입니다".

$k_1 \times k_2 \times C$

글쎄, 나는 이것이 최고의 용어 라고 주장 할 수는 없지만 "커널"과 "필터"라는 용어를 서로 바꾸어 쓰는 것보다 낫다. 또한 필터를 형성하는 고유 한 2D 어레이의 개념을 설명하는 단어 가 필요 합니다.

— 짐
소스

1

기존 답변은 우수하고 포괄적으로 질문에 답변합니다. Convolutional 네트워크의 필터는 전체 이미지에서 공유됩니다 (즉, 입력은 Franck의 답변에 표시된대로 필터와 관련됨). 특정 뉴런 의 수용 장은 해당 뉴런에 영향을 미치는 모든 입력 단위입니다. 컨 볼루 셔널 네트워크에서 뉴런의 수용 필드는 일반적으로 밀도가 높은 네트워크에서 뉴런의 수용 필드보다 공유 필터 ( 매개 변수 공유 라고도 함 )가 작습니다.

매개 변수 공유는 CNN에 일정한 이점, 즉 번역과 등분 산 이라고하는 특성을 부여합니다 . 즉, 입력이 교란되거나 변환되면 출력도 같은 방식으로 수정됩니다. Ian Goodfellow는 딥 러닝 북에서 실무자가 CNN의 등분 산을 어떻게 활용할 수 있는지에 대한 훌륭한 예를 제공합니다.

시계열 데이터를 처리 할 때 컨벌루션은 입력에 다른 기능이 나타날 때를 나타내는 일종의 타임 라인을 생성합니다. 입력에서 이벤트를 나중에 이동하면 해당 데이터와 동일한 표현이 출력에 나타납니다. 나중에 이미지와 마찬가지로 컨볼 루션은 입력에 특정 기능이 나타나는 2D 맵을 만듭니다. 입력에서 객체를 이동하면 해당 표현이 출력에서 동일한 양으로 이동합니다. 이것은 소수의 인접 픽셀의 일부 기능이 여러 입력 위치에 적용될 때 유용하다는 것을 알 때 유용합니다. 예를 들어, 이미지를 처리 할 때 컨볼 루션 네트워크의 첫 번째 레이어에서 에지를 감지하는 것이 유용합니다. 이미지의 어느 곳에서나 동일한 가장자리가 다소 나타나므로 전체 이미지에서 매개 변수를 공유하는 것이 실용적입니다.

— 프라나 브 베 파티
소스