CNN에서 로컬 응답 정규화의 중요성


41

Imagenet 및 기타 대형 CNN이 로컬 응답 정규화 계층을 사용한다는 것을 알았습니다. 그러나 나는 그들에 대한 많은 정보를 찾을 수 없습니다. 그것들은 얼마나 중요하며 언제 사용해야합니까?

에서 http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers :

"로컬 응답 정규화 계층은 로컬 입력 영역을 정규화하여 일종의"측면 억제 "를 수행합니다. ACROSS_CHANNELS 모드에서 로컬 영역은 근처 채널을 통해 확장되지만 공간 범위는 없습니다 (즉, local_size x 1 x 1 모양). WITHIN_CHANNEL 모드에서 로컬 영역은 공간적으로 확장되지만 별도의 채널에 있습니다 (즉, 모양은 1 x local_size x local_size). 각 입력 값은 (1+ (α / n) ∑ix2i) β로 나뉩니다. "는 각 지역의 크기이며 해당 값을 중심으로하는 지역에 대한 합계를 가져옵니다 (필요한 경우에는 0이 채워짐)."

편집하다:

이러한 종류의 레이어는 최소한의 영향을 미쳐 더 이상 사용되지 않는 것 같습니다. 기본적으로 그 역할은 다른 정규화 기술 (예 : 드롭 아웃 및 배치 정규화), 더 나은 초기화 및 교육 방법에 의해 수행되었습니다. 자세한 내용은 아래 답변을 참조하십시오.

답변:


20

이러한 종류의 레이어는 최소한의 영향을 미쳐 더 이상 사용되지 않는 것 같습니다. 기본적으로 그 역할은 다른 정규화 기술 (예 : 드롭 아웃 및 배치 정규화), 더 나은 초기화 및 교육 방법에 의해 수행되었습니다. 다음은 ConvNets 의 Stanford Course CS321n 에 대한 강의 노트에 작성된 내용입니다 .

정규화 계층

ConvNet 아키텍처에 사용하기 위해 많은 유형의 정규화 계층이 제안되어 왔으며 때로는 생물학적 뇌에서 관찰되는 억제 체계를 구현하려는 의도가 있습니다. 그러나, 이들 층은 실제로 그들의 기여가 최소 인 것으로 나타났기 때문에 최근에 선호되지 않았다. 다양한 유형의 정규화에 대해서는 Alex Krizhevsky의 cuda-convnet 라이브러리 API에서 논의를 참조하십시오.


20

실제로, 한곳에서 좋은 설명이없는 것 같습니다. 가장 좋은 것은 기사가 나오는 곳에서 기사를 읽는 것입니다.

원래 AlexNet 기사는 섹션 3.3에 약간 설명되어 있습니다.

  • Krizhevsky, Sutskever 및 Hinton, 심층 컨볼 루션 신경망을 사용한 ImageNet 분류, NIPS 2012. pdf

이 작업을 수행하는 정확한 방법은 다음과 같이 제안되었지만 추가 정보는 많지 않습니다.

  • Kevin Jarrett, Koray Kavukcuoglu, Marc'Aurelio Ranzato 및 Yann LeCun, 객체 인식을위한 최고의 다중 단계 아키텍처는 무엇입니까?, ICCV 2009. pdf

그것은 계산 신경 과학에서 영감을 얻었습니다.

  • S. Lyu와 E. Simoncelli. 분할 정규화를 사용한 비선형 이미지 표현. CVPR 2008. pdf . 이 논문은 수학에 대해 더 깊이 들어가고 seanv507의 답변에 따릅니다.
  • N. Pinto, DD Cox 및 JJ DiCarlo. 실제 가상 객체 인식이 어려운 이유는 무엇입니까? PLoS 전산 생물학, 2008.

15

지식이 있다고 주장하지는 않지만 여기에 제안 된 답변이 있습니다. 선형 모델에서 그래디언트 디센트를 수행 할 때 오차 표면은 2 차이며 곡률은 에 의해 결정됩니다 . 여기서 는 입력입니다. 이제 이상적인 하강 표면 또는 경사 하강은 모든 방향에서 동일한 곡률을 갖습니다 (그렇지 않으면 단계 방향이 일부 방향에서는 너무 작고 다른 방향에서는 너무 큽니다). 입력의 크기를 0으로 조정하여 입력을 정규화하면 분산 1이 도움이되고 빠릅니다. 이제 각 치수의 방향이 모두 동일한 곡률을 가지므로 곡률을 다른 방향으로 제한합니다.XXTX

최적의 솔루션은 입력을 각 뉴런에 구 / 미백하는 것이지만 계산 상 너무 비쌉니다. LCN은 인접 픽셀 (또는 채널) 사이의 높은 상관 관계를 가정하여 근사 미백으로 정당화 될 수 있습니다. 따라서 오류 표면이 SGD에 대해 더 양성 적이라는 이점이 있습니다. 단일 학습 속도가 효과적입니다. (각 뉴런의) 입력 차원에서


2
배치 정규화 : 내부 공변량 변화를 줄임으로써 심층 네트워크 훈련 가속화 Sergey Ioffe, Christian Szegedy, arxiv.org/abs/1502.03167 은 신경계 입력의 ( 정확하게 조작 된) 스케일 조정을 수행하고 더 큰 학습 속도를 사용할 수있어 상당한 속도 향상을 달성합니다.
seanv507

답변 텍스트 아래의 편집 버튼을 사용하여이 정보를 답변으로 편집 할 수 있습니다.
복원 Monica Monica

10

이 답변을 통해 다른 저자의 공헌을 요약하고 LRN (또는 대조 정규화) 기술에 대한 단일 설명을 제공하고자합니다.

동기 부여 : ' 이러한 종류의 반응 정규화 (LRN)는 실제 뉴런에서 발견되는 유형에 의해 영감을받은 측면 억제 형식을 구현하여 다른 커널을 사용하여 계산 된 뉴런 출력간에 큰 활동에 대한 경쟁을 만듭니다. ' AlexNet 3.3

즉, LRN은 이웃에 대해 균일하게 큰 반응을 감소시키고 이웃 내에서 큰 활성화를보다 뚜렷하게하도록, 즉 활성화 맵에서 더 높은 대비를 생성 할 수있게한다. prateekvjoshi.com에 따르면 RELU 와 같은 무제한 활성화 기능에 특히 유용합니다.

원래 공식 : 단일 '픽셀'출력에 해당하는 모든 특정 위치 (x, y) 및 커널 i 에 대해 동일한 위치에 적용된 다른 n 개의 커널 출력에 대한 정보를 포함하는 '필터'를 적용합니다. 이 정규화는 활성화 기능 전에 적용됩니다. 이 정규화는 실제로 커널 순서에 달려 있습니다.

LRN

실제로 ( Caffe 참조 ) 두 가지 접근 방식을 사용할 수 있습니다.

  1. WITHIN_CHANNEL. 단일 컨볼 루션 필터에 해당하는 단일 채널의 로컬 인접 지역에서 정규화합니다. 다시 말해, 근처의 픽셀에 대해 동일한 뉴런의 출력 값에 따라 단일 픽셀의 단일 채널의 응답을 나눕니다.
  2. ACROSS_CHANNELS. 단일 픽셀의 경우 동일한 픽셀에 대한 모든 채널의 값에 따라 모든 채널의 값을 정규화

실제 사용 LRN은 LeNet-5와 같은 초기 조사 기간 동안 더 자주 사용되었습니다. Caffe에서 현재 GoogLeNet (Inception)을 구현할 때 풀링 기술과 관련하여 LRN을 사용하는 경우가 많지만이를 위해서만 수행되는 것 같습니다. 원본 Inception / GoogLeNet ( here )이나 다음 버전 중 어느 것도 LRN을 언급하지 않습니다. 또한 Inception (원본 저자 팀에서 제공 및 업데이트) 네트워크의 TensorFlow 구현은 LRN이 사용 가능하더라도 사용하지 않습니다.

결론 풀링 레이어와 함께 LRN을 적용해도 하이퍼 파라미터 값이 합리적이라면 네트워크 성능이 저하되지 않습니다. 그럼에도 불구하고, 나는 신경망에서 LRN / 대비 정규화를 적용하는 것에 대한 최근의 타당성을 모른다.


또한 Aurélien의 Géron에있는 374 페이지에 따르면 LRN은 일종의 "경쟁 정규화"라고 덧붙입니다. Scikit-Learn 및 TensorFlow를 사용한 실습 머신 러닝 : 지능형 시스템을 구축하기위한 개념, 도구 및 기술 "O'Reilly Media, Inc.", 2017 .. (나는 Hinton이 강의에서 "경쟁 정규화"라고 부르기 때문에 그의 코스 과정에서 객체 인식위한 컨볼 루션 네트 (convolutional net)
Oren Milman


0

로컬 응답 정규화 (LRN)는 각 채널 에 대해 픽셀 단위로 수행됩니다 .i

xi=xi(k+(αjxj2))β

여기서 은 상수입니다. , , 을 설정하면 L2 정규화가 발생합니다 .k,α,βRκ=0α=1β=12

그러나 "배치 정규화 (batch normalization)"( 종이 참조 ) 라는 훨씬 더 새로운 기술이 있으며, 이와 비슷하게 작동하며 더 이상 LRN을 사용하지 않는 것이 좋습니다. 배치 정규화는 픽셀 단위로도 작동합니다.

y=xμσ2+ϵγ+β

여기서 평균이다 분산이다 작은 상수이다 그물 정규화를 제거 할 수 있도록 학습 가능 파라미터이다.μσ2ε>0γ,βR

답은 다음과 같습니다. 로컬 응답 정규화는 더 이상 중요하지 않습니다. LRN : Batch Normalization이 더 잘 작동하고 대체 된 것이 있기 때문입니다.

또한보십시오


나는 이것이 맞지 않다고 생각합니다. LRN은 입력이 아닌 커널의 출력에 적용됩니다 (Alexnet은 입력 정규화를 사용하지만 별개입니다).
Shital Shah
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.