“동일한 번역”과“불변의 번역”의 차이점은 무엇입니까?


38

나는 문제의 차이 이해하는 데 번역 equivariant번역 불변을 .

딥 러닝에서 . 2016 년 MIT Press (I. Goodfellow, A. Courville 및 Y. Bengio)는 컨볼 루션 네트워크에서 찾을 수 있습니다.

  • [...] 매개 변수 공유의 특정 형식으로 인해 레이어 에 변환에 대한 등분 산 이라는 속성이 있습니다.
  • [...] 풀링은 표현이 입력의 작은 번역에 거의 변하지 않도록하는 데 도움이됩니다.

그들 사이에 차이점이 있습니까?


2
Pitman 시대와 마찬가지로 통계의 옛날에는 불변이 등변의 의미로 사용되었습니다.
시안

답변:


39

등분 산과 불변은 때때로 상호 교환 적으로 사용됩니다. @ Xi'an이 지적한 바와 같이 , 통계 문헌에서, 예를 들어 변하지 않는 추정기 , 특히 Pitman 추정기 의 개념에 대한 용도를 찾을 수 있습니다 .

그러나, 나는 언급하고 싶은 두 용어는 분리 할 경우 더 나은 것 접두사로, " 인 - "불변 동안, 결핍을 (모두에서 "더 분산을"의미가없는)한다 " 평형을 "equivariant VARYING "을 의미 유사하거나 동등한 비율로 " 다시 말해, 하나는 움직이지 않고 다른 하나는 움직이지 않습니다 .

간단한 이미지 기능부터 시작하여 이미지 I 이 공간 픽셀 위치 ( x m , y m ) 에서 고유 한 최대 m 을 갖는 것으로 가정 합니다. 여기에서 주요 분류 기능이 있습니다. 다시 말해, 이미지와 모든 번역은 "동일" 입니다. 분류기의 흥미로운 특성은 모든 벡터 ( u , v )에 의한 변환 과 같이 I의 일부 왜곡 된 버전 I ' 을 동일한 방식으로 분류하는 능력 이다.(xm,ym)II(u,v)

최대 값 mI 이며 불변 : m=m 다음 값이 동일하다. 그 위치에있을 것이지만 (xm,ym)=(xmu,ymv) , 및된다 equivariant , 그 의미하는 것은 왜곡 "동등"변한다 .

등분 산을 위해 수학에 주어진 정확한 공식은 우리가 생각하는 대상과 변형에 달려 있으므로, 실제로 가장 자주 사용되는 개념을 선호합니다 (그리고 이론적 인 관점에서 비난을받을 수 있습니다).

여기서, 번역 (또는보다 일반적인 동작)은 그룹 G 의 구조를 갖출 수 있으며 , g 는 하나의 특정 번역 연산자이다. 클래스의 모든 이미지에 대해 그리고 g , f ( g ( I ) ) = f ( I ) 인 경우 함수 또는 특징 fG 변하지 않습니다.g

f(g(I))=f(I).

의미있는 방식으로 G 의 변환을 반영하는 다른 수학적 구조 또는 동작 (종종 그룹) G 가 있는 경우 등변 량이됩니다 . 각각하도록 즉, g , 하나에 고유 한이 g을 'G ' 등이G ggG

f(g(I))=g(f(I)).

ggG=G

또 다른 일반적인 정의는 다음과 같습니다.

f(g(I))=g(f(I)).

GGf(I)g(I)ggg

종종 사람들은 등분 산 개념이 알려지지 않았거나 다른 사람들이 불균형을 사용하기 때문에 불균형이라는 용어를 사용합니다.

기록을 위해 다른 관련 개념 (수학 및 물리학)을 공분산 , 분산 , 미분 불변이라고 합니다.

또한, 최소한의 근사 또는 엔벨로프의 변환 불변은 여러 신호 및 이미지 처리 도구에 대한 요구였습니다. 특히 지난 25 년 동안 멀티 레이트 (필터 뱅크)와 멀티 스케일 (웨이블릿 또는 피라미드) 변환이 설계되었습니다. 웨이블릿 변환 (2D 웨이블릿에 대한 검토, 멀티 스케일 기하학적 표현에 대한 파노라마 ). 웨이블릿은 몇 가지 이산 스케일 변동을 흡수 할 수 있습니다. 모든 이러한 (대략적인) 불변은 종종 변환 계수의 수의 중복 가격과 함께 제공됩니다. 그러나 변이 불변 또는 변이 등변 량 기능을 생성 할 가능성이 높습니다.


4
큰! 자세한 답변 @Laurent Duval
Aamir

24

용어가 다릅니다.

  • 변환과 동등 함은 입력 기능을 변환하면 출력이 동일 하게 변환 됨을 의미합니다. 따라서 입력의 패턴 0,3,2,0,0이 출력에서 ​​0,1,0,0을 초래하면 패턴 0,0,3,2,0은 0,0,1, 0

  • 변환 불변 은 입력 기능의 변환이 출력을 전혀 변경하지 않음을 의미합니다. 따라서 입력의 패턴 0,3,2,0,0이 출력에서 ​​0,1,0을 초래하면 패턴 0,0,3,2,0도 0,1,0으로 이어집니다

컨볼 루션 네트워크의 기능 맵을 유용하게 사용하려면 일반적으로 어느 정도 균형을 유지해야합니다. 등분 산을 통해 네트워크는 서로 다른 위치에서 가장자리, 질감, 모양 감지를 일반화 할 수 있습니다. 불일치는 감지 된 특징의 정확한 위치를 덜 중요하게합니다. 이들은 많은 이미지 처리 작업에 대한 두 가지 보완적인 일반화 유형입니다.


번역 된 기능은 일부 레이어에서 번역 된 출력을 생성합니다. 상당히 번역 된 전체 물체가 감지되는 것에 대해 자세히 설명해주십시오. CNN이 다른 위치를 포함하는 이미지로 훈련되지 않은 경우에도 감지되는 것 같습니다. 이 경우 등분 산이 유지됩니까 (분산과 더 유사하게 보입니까)?
VladimirLenin

@ VladimirLenin :이 질문에 정교함이 필요하다고 생각하지 않습니다 .OP가 여기에 요청한 것이 아닙니다. 가능한 경우 구체적인 예를 들어 별도의 질문을하는 것이 좋습니다. 시각적으로 "전체 개체"가 번역되었다고해서 CNN의 기능 맵이 예상 한 것과 동일한 것을 추적하고있는 것은 아닙니다.
Neil Slater

4

내 2 센트 만 추가하면

f:ILIL

  • f:IL
  • f:LL

다음 속성을 사용하여 수행됩니다.

  • 레이어 입력의 이동으로 ConvLayer (Spatial 2D Convolution + NonLin, 예 : ReLU)를 고려한 공간적 등분 산은 레이어 출력의 이동을 생성합니다 (참고 : 단일 컨볼 루션 연산자가 아니라 레이어에 대한 것입니다)
  • 풀링 연산자와 관련된 공간 불변성 (예 : Max Pooling은 공간 위치에 관계없이 수용 필드의 최대 값을 초과 함)

I

L

프런트 엔드에서 완전히 연결된 레이어를 사용하면 백엔드 구조에 따라 분류자가 피쳐 위치에 어느 정도 민감 해집니다. 깊이가 높고 변환 불변 연산자 (풀링)가 많이 사용됩니다.

에 도시 된 길쌈 신경망 정량화 번역 불변 대신 유도 바이어스에 (아키텍처 따라서 깊이 풀링, ...)가 데이터 세트 바이어스에 작용 더 효과적이다 (데이터 보강 작용 중, CNN 급기 번역 불변성 (invariance) 개선한다는 )

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.