CNN은 공간에서 패턴을 인식하는 방법을 배웁니다. 따라서 CNN은 이미지의 구성 요소 (예 : 선, 곡선 등)를 인식하는 방법을 배우고 이러한 구성 요소를 결합하여 더 큰 구조 (예 :면, 물체 등)를 인식하는 방법을 배웁니다.
매우 일반적인 방식으로 RNN은 시간이 지남에 따라 패턴을 인식하는 방법을 배우게 될 것이라고 말할 수 있습니다. 따라서 텍스트를 번역하도록 훈련 된 RNN은 "hot"이라는 단어가 앞에 오면 "dog"이 다르게 번역되어야한다는 것을 알 수 있습니다.
그러나 두 종류의 NN이 이러한 패턴을 나타내는 메커니즘은 다릅니다. CNN 의 경우 이미지의 모든 다른 서브 필드 에서 동일한 패턴을 찾고 있습니다. RNN의 경우 (가장 간단한 경우) 이전 단계의 숨겨진 레이어를 다음 단계에 대한 추가 입력으로 공급합니다. RNN은이 프로세스에서 메모리를 빌드하지만 CNN이 다른 공간 영역에서 동일한 패턴을 찾는 것과 같은 방식으로 다른 시간 조각에서 동일한 패턴을 찾지 않습니다.
여기서 "시간"과 "공간"이라고 말하면 너무 문자 그대로 받아 들여서는 안됩니다. 예를 들어 이미지 캡션을 위해 단일 이미지에서 RNN을 실행할 수 있으며 "시간"의 의미는 단순히 이미지의 다른 부분이 처리되는 순서입니다. 따라서 처음에 처리 된 객체는 나중에 처리 된 객체의 캡션을 알려줍니다.