CNN, 커널 및 스케일 / 회전 불변성 정보


18

CNN과 관련하여 혼란스러워하는 몇 가지 질문이 있습니다.
1) CNN을 사용하여 추출한 기능은 스케일과 회전이 변하지 않습니까?
2) 데이터와의 컨볼 루션에 사용하는 커널은 이미 문헌에 정의되어 있습니까? 이 커널들은 어떤 종류입니까? 응용 프로그램마다 다릅니 까?

답변:


17

1) CNN을 사용하여 추출한 기능은 스케일과 회전이 변하지 않습니까?

CNN의 기능 자체는 스케일 또는 회전이 변하지 않습니다. 자세한 내용은 딥 러닝을 참조하십시오. Ian Goodfellow와 Yoshua Bengio와 Aaron Courville. 2016 : http://egrcc.github.io/docs/dl/deeplearningbook-convnets.pdf ; http://www.deeplearningbook.org/contents/convnets.html :

컨벌루션은 자연스럽게 이미지의 스케일 또는 회전 변화와 같은 다른 변형과 동일하지 않습니다. 이러한 종류의 변환을 처리하려면 다른 메커니즘이 필요합니다.

이러한 불변량을 도입하는 것은 최대 풀링 계층입니다.

여기에 이미지 설명을 입력하십시오

2) 데이터와의 컨볼 루션에 사용하는 커널은 이미 문헌에 정의되어 있습니까? 이 커널들은 어떤 종류입니까? 응용 프로그램마다 다릅니 까?

커널은 ANN의 훈련 단계에서 학습됩니다.


현재의 최첨단 기술로 세부 사항을 말할 수는 없지만 1 지점의 주제 에서이 흥미로운 것을 발견 했습니다 .
GeoMatt22

@Franck 1) 즉, 시스템 회전을 변하지 않는 특별한 단계를 취하지 않습니까? 스케일 불변 값은 어떻습니까? 최대 풀링에서 스케일 불변 값을 얻을 수 있습니까?
Aadnan Farooq 2

2) 커널은 기능입니다. 나는 그것을 얻지 못했습니다. [여기] ( wildml.com/2015/11/… ) 그들은 예를 들어 "이미지 분류에서 CNN은 첫 번째 레이어의 원시 픽셀에서 가장자리를 감지하는 방법을 배울 수 있습니다. 그런 다음 가장자리를 사용하여 두 번째 레이어를 선택한 다음이 모양을 사용하여 더 높은 레이어의 얼굴 모양과 같은 높은 수준의 기능을 억제합니다. 마지막 레이어는 이러한 높은 수준의 기능을 사용하는 분류기입니다. "
Aadnan Farooq A

2
말하고있는 풀링은 교차 채널 풀링이라고하며 일반적으로 "최대 풀링"에 대해 언급 할 때 풀링 유형 이 아닙니다 .이 풀링은 공간 차원 (다른 입력 채널이 아닌)에만 풀링됩니다. ).
Soltius

1
이것은 최대 풀 레이어가없는 모델을 의미합니까 (현재 SOTA 아키텍처의 대부분은 풀링을 사용하지 않음) 완전히 스케일에 의존합니까?
shubhamgoel27

6

당신을 혼란스럽게하는 몇 가지가 있다고 생각합니다.

주어진 신호 엑스[]h[]엑스[]h[]와이[]=(엑스h)[]

와이[]=미디엄=엑스[미디엄] h[미디엄]

위의 1 차원 신호의 경우 2 차원 신호 인 이미지에 대해서도 마찬가지입니다. 이 경우 방정식은 다음과 같습니다.

나는이자형[아르 자형,]==V=나는영형[,V] 케이[아르 자형,V]

그림으로, 이것은 일어나고있는 일입니다 :

여기에 이미지 설명을 입력하십시오

어쨌든 명심해야 할 것은 커널 이 실제로 DNN (Deep Neural Network)을 훈련하는 동안 배운다 는 것 입니다. 커널은 입력과 관련된 것입니다. DNN은 대상 목표의 손실을 줄이는 데 도움이 될 이미지 (또는 이전 이미지)의 특정 측면을 제공하도록 커널을 학습합니다.

이것이 이해해야 할 첫 번째 핵심 포인트입니다. 전통적으로 사람들은 커널 을 설계 했지만 딥 러닝에서는 네트워크가 가장 적합한 커널을 결정하도록합니다. 그러나 우리가 지정하는 한 가지는 커널 크기입니다. (이를 하이퍼 파라미터라고합니다 (예 : 5x5 또는 3x3 등)).


좋은 설명입니다. 질문의 첫 부분에 대답 해 주시겠습니까? CNN은 스케일 / 회전 불변 값입니까?
Aadnan Farooq A

1
@AadnanFarooqA 오늘 밤 그렇게 할 것입니다.
Tarin Ziyaee

2

캡슐 넷을 제안하는 제프리 힌튼 (Geoffrey Hinton)을 포함한 많은 저자들이이 문제를 해결하려고 노력하지만 질적으로 말입니다. 이 문제를 정량적으로 해결하려고 노력합니다. CNN에서 모든 컨볼 루션 커널이 대칭 (8 차 [Dih4] 또는 90도 증분 회전 대칭 등의 이차원 대칭)을 갖도록하여 각 컨볼 루션 숨겨진 레이어의 입력 벡터 및 결과 벡터를위한 플랫폼을 제공합니다. 동일한 대칭 특성 (즉, Dih4 또는 90- 증가 회전 대칭 등)과 동기식으로. 또한 첫 번째 평평한 레이어에서 각 필터에 대해 동일한 대칭 속성 (즉, 완전히 연결되었지만 동일한 대칭 패턴으로 공유하는 무게)을 가짐으로써 각 노드의 결과 값은 양적으로 동일하며 CNN 출력 벡터로 동일하게됩니다 게다가. 나는 그것을 변형 동일 CNN (또는 TI-CNN-1)이라고 불렀다. CNN (TI-CNN-2) 내부에서 대칭 입력 또는 연산을 사용하여 변환과 동일한 CNN을 구성 할 수있는 다른 방법도 있습니다. TI-CNN을 기반으로 입력 된 벡터가 작은 스텝 각도로 회전 된 여러 TI-CNN에 의해 ​​기어 식 회전 동일 CNN (GRI-CNN)을 구성 할 수 있습니다. 또한, 다수의 GRI-CNN을 다양한 변환 된 입력 벡터와 조합함으로써 정량적으로 동일한 CNN을 구성 할 수도있다.

  1. "대칭 요소 연산자를 통한 변형 적으로 동일하고 변하지 않는 컨볼 루션 신경망" https://arxiv.org/abs/1806.03636 (2018 년 6 월)

  2. “대칭 연산 또는 입력 벡터를 결합하여 변형 적으로 동일하고 변하지 않는 컨볼 루션 신경망” https://arxiv.org/abs/1807.11156 (2018 년 7 월)

  3. "회전식으로 동일하고 변하지 않는 컨볼 루션 뉴럴 네트워크 시스템" https://arxiv.org/abs/1808.01280 (2018 년 8 월)


-1

max pooling은 보폭보다 작은 평행 이동 및 회전에 대해서만 평행 이동 및 회전 불변을 예약 할 수 있다고 생각합니다. 더 크면 불변


1
조금 확장 할 수 있습니까? 이 사이트에 대한 답변은 이보다 조금 더 자세하게 작성하는 것이 좋습니다 (지금은 설명이 더 보입니다). 감사합니다!
Antoine
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.