컨볼 루션 신경망 : 중앙 뉴런이 출력에서 ​​과도하게 표현되지 않습니까?


30

[이 질문은 또한 스택 오버플로 에서 제기되었습니다 ]

짧은 질문

나는 회선 신경 네트워크를 연구하고 있는데,이 네트워크가 모든 입력 뉴런 (픽셀 / 파라미터)을 동등하게 취급하지는 않는다고 생각합니다. 일부 입력 이미지에 컨볼 루션을 적용하는 딥 네트워크 (다중 레이어)가 있다고 가정합니다. 이미지의 "중간"에있는 뉴런은 더 깊은 층 뉴런에 대한 많은 고유 한 경로를 가지는데, 이는 중간 뉴런의 작은 변화가 출력에 강한 영향을 미친다는 것을 의미합니다. 그러나, 화상의 가장자리에있는 뉴런은 (정도의 정확한 구현에 따라, 또는 방법 자신의 정보를 그래프를 통해 유동하는 경로). 이것들은 "대표되지 않은"것 같습니다.11

에지 뉴런의 이러한 차별이 네트워크의 깊이 (계층 수)에 따라 기하 급수적 으로 확장 되므로이 점 에 대해 우려 하고 있습니다. 최대 풀링 레이어를 추가해도 지수 증가가 중단되지는 않으며 전체 연결만으로 모든 뉴런이 동일한 기반을 갖습니다. 그러나 내 추론이 정확하다는 것을 확신하지 못하므로 내 질문은 다음과 같습니다.

  • 이 효과가 깊은 컨볼 루션 네트워크에서 발생하는 것이 맞습니까?
  • 이것에 대한 이론이 있습니까, 문학에서 언급 된 적이 있습니까?
  • 이 효과를 극복 할 수있는 방법이 있습니까?

이것이 충분한 정보를 제공하는지 확실하지 않기 때문에 문제 진술에 대해 좀 더 자세히 설명하고 이것이 왜 문제라고 생각합니까?

더 자세한 설명

이미지를 입력으로 사용하는 심층 신경망이 있다고 상상해보십시오. 이미지 위에 픽셀 의 컨볼 루션 필터를 적용한다고 가정 하면 매번 컨볼 루션 창을 4 픽셀 씩 이동합니다. 이것은 입력의 모든 뉴런이 활성화를 레이어 2의 16 × 16 = 265 뉴런으로 보냅니다 . 이 뉴런 각각은 다른 265에 활성화를 보낼 수 있으므로 최상위 뉴런은 265 2 출력 뉴런 등으로 표시됩니다.64×64416×16=26522652652

그러나 이것은 가장자리의 뉴런에는 해당되지 않습니다. 이들은 소수의 컨볼 루션 창에만 표시되어 다음 계층에서 뉴런 만 활성화시킬 수 있습니다. 가장자리를 따라 미러링과 같은 트릭을 사용하면 도움이되지 않습니다. 투사 될 2 층 뉴런이 여전히 가장자리에 있습니다. 즉, 2 층 뉴런이 제대로 표현되지 않습니다 (따라서 우리의 가장자리 뉴런도). 알 수 있듯이이 불일치는 레이어 수에 따라 기하 급수적으로 확장됩니다.1

여기에서 찾을 수있는 문제를 시각화하기 위해 이미지를 만들었습니다 (게시물 자체에 이미지를 포함시킬 수 없습니다). 이 네트워크에는 크기가 컨볼 루션 창이 있습니다. 뉴런 옆의 숫자는 가장 깊은 뉴런까지의 경로 수를 나타냅니다. 이미지는 파스칼의 Triangle을 연상시킵니다 .3

https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0

이것이 왜 문제입니까?

이 효과는 첫눈에 문제가되지 않는 것 같습니다. 원칙적으로 가중치는 네트워크가 작동하는 방식으로 자동 조정되어야합니다. 더욱이, 이미지의 에지는 이미지 인식에서 그렇게 중요하지 않다. 이 효과는 일상적인 이미지 인식 테스트에서 눈에 띄지 않을 수도 있지만, 그것은 여전히 내게 때문에 두 가지 이유에 관한 : 1. 다른 응용 프로그램을 일반화하고, (2) 의 경우에 발생하는 문제가 매우 깊은 네트워크를.

1. 음성 또는 소리 인식과 같은 다른 응용 프로그램이있을 수 있는데, 가장 중간에있는 뉴런이 가장 중요하지 않다는 것은 사실이 아닙니다. 컨볼 루션 적용은 종종이 분야에서 이루어 지지만, 내가 우려하는 효과를 언급 한 논문을 찾을 수 없었습니다.

2. 매우 깊은 네트워크가 알 기하 급수적으로 중앙 신경 세포는 크기의 여러 명령에 의해 과대 대표 될 수 있다는 것을 의미한다 경계 뉴런의 차별의 나쁜 효과를 (우리가 상상 층을 같은 위의 예는 줄 것이라고 (265) 10 가지 중앙 신경을 정보를 투사 할 수 있습니다). 레이어 수를 늘리면 가중치로 인해이 효과를 보상 할 수없는 한계에 도달하게됩니다.1026510

이제 우리는 모든 뉴런을 소량 방해합니다. 중심 뉴런은 가장자리 뉴런에 비해 출력이 몇 배 더 강하게 변하게합니다. 일반적인 응용 프로그램과 매우 깊은 네트워크의 경우 문제를 해결할 방법을 찾아야한다고 생각합니까?


8
귀하의 질문에 완전히 대답 할 수는 없지만이 문서를 찾았습니다. cs.utoronto.ca/~kriz/conv-cifar10-aug2010.pdf 문제를 해결하십시오. 그들은 서로 다른 솔루션, 1) 입력의 가장자리를 0으로 채우는 것, 2) 무작위로 전역 적으로 연결된 구성 요소를 추가하는 것, 또는 3) 가장자리 정보를 잃지 않도록 가장자리를 고정하고 앞으로 전파하는 것에 대해 이야기합니다. 최근에 같은 문제가 궁금해서 질문을 찾았습니다. 나는 아직도 그 논문의 세부 사항을 넘어 가고 있습니다. 도움이 되길 바랍니다.
nfmcclure

고마워, 이것은 내가 찾던 것입니다! 2 개의 레이어만으로도 눈에 띄게 나타납니다. TL; DR의 경우 전체 논문 : 1) (제로 패딩)과 2) (임의의 전역 연결) 조합을 사용하는 것이 가장 좋은 치료법으로 밝혀졌습니다.
Koen


궁금합니다. 겹치지 않는 오프셋을 사용하는 것만으로는 충분하지 않습니까? 따라서 귀하의 예에는 64x64 패치가 있으며 회선을 적용하면서 매번 64 픽셀의 입력을 이동합니다. ( '시프트'는 내 '오프셋'입니다). 제로 패딩을 수행하는 것과 동일한 것은 무엇입니까?
Renthal

1
한동안 응답하지 않아서 죄송합니다. 더 이상 NN에서 작업하지 않습니다. 그러나 나는 더 큰 목표가 진행되고있는 일을 이해 하는 것이 었음에도 불구하고 질문에 대답 할 수 있다고 생각 합니다. 1)이 효과는 실제로 발생하는 것 같습니다. 2) 위에 링크 된 논문은 그것을 설명하고 3) 또한 그것을 극복하는 방법을 탐구합니다. Renthalhal : 겹치지 않는 패치 (오프셋 = 전환 크기 선택)는 실제로 내 문제를 극복해야하지만 사람들은 종종 겹치는 패치를 사용하여 더 잘 작동합니다. EngrStudent에게 죄송합니다. Bootstrap Resampling에 익숙하지 않습니다.
Koen

답변:


4

계층 적 모델에서는 희소 표현이 예상됩니다. 아마도, 당신이 발견 한 것은 딥 러닝 모델의 계층 구조에 내재 된 문제 일 것입니다. 특히 메모리 연구에서 "희소 한 표현"에 관한 과학 논문이 많이 있습니다.

나는 시각 피질에서 "수용체 필드"에 대해 읽는 것이 도움이 될 것이라고 생각합니다. 포유류 뇌에는 ON 및 OFF 세포뿐만 아니라 ON 및 OFF 동안 발사되는 RF 세포도 있습니다. 아마도 특히 동물 모델에서 시력에 대한 현재의 신경 과학을 반영하도록 모델을 업데이트함으로써 엣지 / 스 패리티 문제를 피할 수 있습니다.


3

컨볼 루션이 이미지 픽셀에서만 작동하는 경우이 문제가 맞지만, 일반적으로 권장되는대로 이미지제로 패드 하면 문제가 사라집니다 . 이렇게하면 컨볼 루션이 각 픽셀에 필터를 같은 횟수로 적용 할 수 있습니다.


1
나는 아직 확신하지 못한다. 제로 패딩은 패딩없이 찾은 "중심"픽셀 주위에 더 많은 출력 픽셀을 만듭니다. "중심"픽셀의 값은 제로 패딩이 무엇을 사용하든 정확히 동일합니다.
Koen

1
×1

이 페이지의 절반 아래에있는 컨볼 루션 시각화는 직관을 전달하는 데 도움이 될 수 있습니다. cs231n.github.io/convolutional-networks
jon_simon
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.