딥 러닝의 1D 컨볼 루션 레이어 란 무엇입니까?


13

2D 또는 3D 구현의 경우 이미지 처리를위한 딥 러닝에서 컨볼 루션 레이어의 역할과 메커니즘에 대해 잘 이해하고 있습니다. 이미지에서 2D 패턴 (3D의 경우 3 개 채널)을 "간단하게"포착하려고합니다.

그러나 최근에 나는 자연 언어 처리의 맥락에서 1D 컨볼 루션 레이어에 부딪 혔습니다. 내 이해에는 2D 컨볼 루션이 1D (벡터) 형태로는 드러날 수없는 2D 패턴을 포착하는 데 특히 사용되기 때문에 놀랍습니다. 이미지 픽셀. 1D 컨볼 루션의 논리는 무엇입니까?

답변:


16

요컨대, 컨볼 루션의 차원 수에는 특별한 것이 없습니다. 문제에 적합하다면 모든 차원의 회선이 고려 될 수 있습니다.

차원 수는 해결중인 문제의 속성입니다. 예를 들어, 오디오 신호의 경우 1D, 이미지의 경우 2D, 영화의 경우 3D입니다. . .

차원 수를 간단히 무시하면 다음은 특정 유형의 데이터를 처리 할 때 완전히 연결된 모델과 비교하여 CNN (Convolutional Neural Network)의 장점 으로 간주 될 수 있습니다 .

  1. 컨볼 루션이 처리하는 각 위치에 대해 공유 가중치를 사용하면 완전히 연결된 네트워크를 통해 처리 된 동일한 데이터와 비교할 때 학습해야하는 매개 변수 수가 크게 줄어 듭니다.

  2. 공유 가중치는 정규화의 한 형태입니다.

  3. 컨벌루션 모델의 구조는 데이터의 로컬 관계에 대한 강력한 가정을 제공하며, 사실 인 경우 문제에 적합합니다.

    3.1 지역 패턴은 우수한 예측 데이터를 제공합니다 (또는 상위 계층에서 더 복잡한 예측 패턴으로 유용하게 결합 될 수 있음)

    3.2 데이터에서 발견 된 패턴 유형은 여러 곳에서 찾을 수 있습니다. 다른 데이터 포인트 세트에서 동일한 패턴을 찾는 것이 의미가 있습니다.

CNN의 이러한 속성은 차원 수와 무관합니다. 1 차원 CNN은 1 차원의 패턴으로 작동하며 고정 길이 신호에 대한 신호 분석에 유용합니다. 예를 들어 오디오 신호 분석에 적합합니다. 또한 일부 자연 언어 처리의 경우-시퀀스 길이가 다른 반복 신경 네트워크가 특히 LSTM 또는 GRU와 같은 메모리 게이트 배열을 사용하는 네트워크에 더 적합 할 수 있습니다. 여전히 CNN을 관리하기가 쉬울 수 있으며 입력을 고정 길이로 채울 수 있습니다.


2D는 회색조 이미지에만 해당됩니까? RGB를 도입하면 어떻게됩니까?
Mohammad Athar

1
@MohammadAthar : RGB는 별도의 2D 정보의 채널 (또는 기능 맵 )으로 표시되며 일반적으로 CNN 레이어를 설명 할 때 2D로 간주됩니다. TensorFlow 또는 Keras를 사용하는 경우 Conv2D 레이어 정의를 사용하여 컬러 이미지를 처리 ​​할 수 ​​있습니다. 그러나 구현은 가중치를 저장하기 위해 내부적으로 3D 및 4D 구조를 갖는 경우가 많습니다. . . 여러 채널에 걸친 2D 컨볼 루션은 수학적으로 3D 컨볼 루션의 특수한 경우입니다 (입력 및 커널 차원이 마지막 레이어와 일치해야 함). 따라서 이것은 무엇보다도 명명 규칙입니다.
Neil Slater
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.