편의를 넘어 신경망에서 컨볼 루션에 대한 수학적 이유가 있습니까?


14

컨볼 루션 신경망 (CNN) 에서 컨볼 루션을 진행하기 전에 각 단계 의 가중치 매트릭스 가 행과 열을 뒤집어 커널 매트릭스를 얻습니다. 이것은 휴고 라로 셸에 의해 비디오 시리즈에 설명되어 여기 :

숨겨진 맵을 계산하는 것은 커널 행렬 [...]을 사용하여 이전 레이어의 채널과 이산 컨볼 루션을 수행하는 것과 일치하며, 커널은 숨겨진 가중치 행렬 에서 계산됩니다 Wij. 열.

여기에 이미지 설명을 입력하십시오

다른 유형의 NN 에서처럼 컨벌루션의 축소 된 단계를 규칙적인 행렬 곱셈과 비교한다면 편의성은 분명한 설명이 될 것 입니다. 그러나 이것은 가장 적절한 비교가 아닐 수도 있습니다 ...

디지털 이미징 처리에서 이미지에 필터 컨볼 루션 적용 ( 실제 직관을위한 훌륭한 YouTube 비디오 )은 다음과 관련이있는 것 같습니다.

  1. 컨볼 루션은 연관성이 있지만 (상호) 상관 은 사실 이 아닙니다.
  2. 시간 영역에서의 컨볼 루션 은 주파수 영역에서의 곱셈 ( 컨볼 루션 정리 ) 과 동일하므로 이미지의 주파수 영역에서 필터를 곱셈으로 적용 할 수 있습니다 .

이 특정 기술 환경에서 DSP 상관 관계 는 다음과 같이 정의됩니다.

FI(x,y)=j=NNi=NNF(i,j)I(x+i,y+j)

이것은 본질적으로 Hadamard 제품의 모든 셀의 합입니다.

FI(x,y)=[F[N,N]I[xN,yN]F[N,0]I[xN,yN]F[N,N]I[xN,y+N]F[0,N]I[x,yN]F[0,0]I[x,y]F[0,N]I[x,y+N]F[N,N]I[x+N,yN]F[N,0]I[x+N,y]F[N,N]I[x+N,y+N]]

여기서 는 필터 함수 (행렬로 표현됨)이고 I ( x , y ) 는 위치 ( x , y ) 에있는 이미지의 픽셀 값입니다.F(i,j)I(x,y)(x,y)

여기에 이미지 설명을 입력하십시오

상호 상관목적은 프로브 이미지와 테스트 이미지가 얼마나 유사한 지 평가하는 것입니다. 상호 상관지도의 계산은 컨볼 루션 정리에 의존합니다.


반면에 회선은 다음과 같이 정의됩니다.

FI(x,y)=j=NNi=NNF(i,j)I(xi,yj)

필터가 대칭 인 한, 필터의 행과 열을 뒤집은 상관 연산과 동일합니다.

FI(x,y)=[F[N,N]I[xN,yN]F[N,0]I[xN,yN]F[N,N]I[xN,y+N]F[0,N]I[x,yN]F[0,0]I[x,y]F[0,N]I[x,y+N]F[N,N]I[x+N,yN]F[N,0]I[x+N,y]F[N,N]I[x+N,y+N]]

여기에 이미지 설명을 입력하십시오


[1474141626164726412674162616414741]

여기에 이미지 설명을 입력하십시오


계산적으로 , 두 연산 모두 Frobenius 내부 곱이며 행렬 곱셈의 흔적을 계산합니다 .


질문 (의견 및 첫 번째 답변 후 재구성) :

  1. CNN에서 컨볼 루션 사용이 FFT와 연결되어 있습니까?

내가 지금까지 수집 한 것에서 답은 '아니오'입니다. FFT는 컨볼 루션의 GPU 구현 속도를 높이는 데 사용되었습니다 . 그러나 사전 활성화 단계에서 컨볼 루션을 사용하더라도 FFT는 일반적으로 CNN의 구조 또는 활성화 기능의 일부가 아닙니다.

  1. CNN의 컨볼 루션과 상호 상관은 동일합니까?

그렇습니다.

  1. "차이가 없다"고 간단하다면 가중치를 커널 매트릭스로 뒤집는 점은 무엇입니까?

컨볼 루션의 연관성 (수학 증명에 유용한)이나 FT와 컨볼 루션 정리에 관한 고려 사항은 적용되지 않습니다. 사실, 뒤집기조차 일어나지 않는 것처럼 보입니다 (교차 상관은 단순히 컨볼 루션으로 잘못 분류되어 있음) (?).


Antoni는 가중치를 뒤집는 소스를 가리킬 수 있습니까? @hossein이 지적했듯이 순서를 뒤집기 만하면 회선으로 할 수있는 상호 상관 관계로 무엇이든 할 수 있습니다. 따라서이 모든 주파수 영역은 관련이 없습니다.
seanv507

@ seanv507 요청한 내용의 출처를 포함하도록 OP를 수정했습니다. 나는 컨볼 루션이 뒤집힌 필터 매트릭스와의 상호 상관과 동일한 연산을 얻지 만, 할 수 없었던 것이 없다면 이산 컨벌루션의 "고통"을 극복하는 이유를 알 수 없다 상관 관계를 달성했습니다. 주어진 대답은 분명히 지식이 있지만, 의견에 적합 할 수 있으며, 학습 과정에 대한 영향, DSP에서 ML로 넘어온 "전통"입니까? FT와의 관계.
Antoni Parellada

1
Antoni, 뒤집을 필요가 없습니다. 그것은 더 많은 관습입니다. dsp에서 사람들은 상호 상관 관계보다는 컨벌루션에 대해 이야기하고 상호 상관 신경 네트워크는 혀를 굴리지 않습니다. 그러나보다 자연스러운 (인간이 해석 할 수있는) 작업은 CNN (예 : 회전 대칭이 아닌 수직 에지 필터 고려)에 대한 상호 상관 (템플릿 일치)입니다. 나는 휴고 라로 셸 어쩌면 오히려 상호 상관 이상의 회선 표준 기능입니다 수치 라이브러리에 대해 이야기라고 생각합니다 그래서 (그가 효과적으로 회선 수행 할 수있는 상호 상관을 말하고있다.).
seanv507

1
Antoni, 두 가지 첫 번째 질문 / 응답에 동의하며 내 의견은 세 번째 질문에 대답했습니다.
seanv507

1
CNN과 FFT간에 직접 연결이 반드시 필요한 것은 아니지만 일반적인 컨볼 루션 합계를 유지할 때 FFT를 사용하여 CNN의 속도를 높일 수 있다는 증거가 있습니다. 예를 들어 여기를 참조하십시오 : arxiv.org/pdf/1312.5851.pdf
Alex R.

답변:


8

신경망이 회선 또는 상관 관계를 사용할 때 수행 할 수있는 작업에는 차이가 없습니다. 필터가 학습 되고 CNN이 컨볼 루션 연산을 사용하여 특정 작업을 수행하는 방법을 배울 수있는 경우 상관 연산을 사용하여 동일한 작업을 수행하는 방법을 배울 수도 있습니다 (각 필터의 ​​회전 버전을 학습 함).

사람들이 때때로 상관 관계보다 회선에 대해 생각하는 것이 더 직관적 인 이유에 대한 자세한 내용을 찾으려면, 이 게시물 이 유용 할 수 있습니다.

컨볼 루션과 상호 상관간에 차이가 없다면 가중치를 커널 매트릭스로 뒤집는 점은 무엇입니까? Ian Goodfellow et al.Deep learning book 의 일부 문장을 포함하고 싶습니다 .이 질문에 대답하기 위해 :

"커널을 뒤집는 유일한 이유는 commutative 속성을 얻는 것입니다. commutative 속성은 증명을 작성하는 데 유용하지만 일반적으로 신경망 구현의 중요한 속성은 아닙니다 ... 많은 머신 러닝 라이브러리는 상호 상관을 구현하지만 컨볼 루션입니다. "

테이크 아웃은 컨볼 루션이 클래식 머신 비전 애플리케이션에서 선호되는 작업이지만 컨볼 루션 신경망의 많은 구현에서 상관 관계로 대체됩니다.


감사합니다. 나는 당신이 링크하는 블로그를주의 깊게 읽었으며 컨볼 루션의 사용은 단순히 상관 관계와 같지 않고 주파수 영역 기능 선택에 응답하는 것처럼 보입니다. 이에 대한 자세한 답변을 찾고 있습니다.
Antoni Parellada 10

아시다시피, 두 매트릭스의 내적을 수행하기 때문에 할 수있는 것과 동등 하지만 컨볼 루션은 내적보다 필터 매트릭스를 뒤집고 CNN은 필터를 배우기 때문에 뒤집힌 필터를 배울 수 있습니다.
Hossein

Hosseins 설명에 +1하지만 블로그 링크에 대해서는 -1입니다. 블로그는 주로 하드웨어에 중점을두고 있으며 컨볼 루션 및 기타 신호 처리 개념에 대한 배경 지식이없는 CS 전문가입니다.
seanv507

나는 CNN과 푸리에 변환에서의 컨볼 루션 간의 관계 (또는 그 부족)에 대한 추가 단락이 여전히 있다고 주장하고 싶습니다.
Antoni Parellada 2016 년

2

FFT와 컨볼 루션 사이에는 실질적인 이유가 있습니다.

시간 / 이미지 도메인에서 컨볼 루션이 느립니다. 적용× 한 픽셀로 필터링하려면 영형(2)곱셈과 덧셈. 그것을 모든 픽셀에 적용× 이미지는 따라서 요구한다 22작업. 이것은 빠르게 성장하고 많은 작업이 추가 시간을 요구할뿐만 아니라 더 많은 수치 오류를 유발합니다.

컨볼 루션 정리는 시간 영역에서의 컨볼 루션은 주파수 영역에서의 포인트 단위 곱셈과 동일하다고 말합니다. FFT는 빠름 : 점근 성능이 우수합니다.영형(2로그2)실제 구현은 종종 고도로 최적화됩니다. 푸리에 도메인으로 전환하면 컨볼 루션을 수행 할 수 있습니다.영형(2) 대신에 (점별 곱셈에 의해 지배되는) 시간 영형(22). FFT-> 곱셈-> 역 FFT 경로를 내리는 것이 훨씬 더 복잡해 보이지만 상당한 속도 향상을 제공 할 수 있습니다. 여기 더

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.