컴퓨터 비전과 컨볼 루션 신경망에서 번역 불일치 란 무엇입니까?


36

컴퓨터 비전에 대한 배경 지식이 없지만 이미지 처리 및 회선 신경망 관련 기사 및 논문을 읽을 때 끊임없이 translation invariance, 또는 이라는 용어에 직면합니다 translation invariant.
또는 컨볼 루션 작업이 제공하는 많은 것을 읽었 translation invariance습니까? !! 이것은 무엇을 의미 하는가?
나는 우리가 어떤 모양으로 이미지를 바꾸더라도 이미지의 실제 개념은 변하지 않는다는 것을 의미하는 것처럼 항상 나 자신으로 번역했습니다.
예를 들어, 나무라고 할 수있는 이미지를 회전 시키면, 그 사진에 상관없이 다시 나무가됩니다.
그리고 이미지에 발생할 수있는 모든 작업을 자르고 크기를 조정하고 그레이 스케일로 지정하고 색을 지정하는 등의 방식으로 이미지를 변형시킵니다. 나는 이것이 사실인지 전혀 모른다. 그래서 누군가 나에게 이것을 설명 할 수 있다면 나는 감사 할 것이다.

답변:


57

당신은 올바른 길을 가고 있습니다.

불일치 란 어떤 방식 으로든 모양이 다양 하더라도 개체를 개체로 인식 할 수 있음을 의미합니다 . 이는 뷰어 / 카메라와 객체의 상대 위치와 같은 시각적 입력의 특정 변경 사항에 걸쳐 객체의 아이덴티티, 카테고리 등을 유지하기 때문에 일반적으로 좋습니다.

아래 이미지에는 동일한 조각상의 많은보기가 포함되어 있습니다. 실제 픽셀 값이 상당히 다르더라도 사용자 (및 잘 훈련 된 신경망)는 모든 그림에 동일한 객체가 나타나는 것을 인식 할 수 있습니다.

다양한 종류의 불변, 시연

참고 번역 여기가 의미하는 특정 구조에서 빌려 비전을. 프랑스어에서 영어로 또는 파일 형식간에 변환하는 것과 달리 어떤 유형의 변환도 의미하지 않습니다. 대신 이미지의 각 포인트 / 픽셀이 같은 방향으로 같은 양으로 이동했음을 의미합니다. 또는 원점이 반대 방향으로 같은 양만큼 이동 한 것으로 생각할 수 있습니다. 예를 들어, 각 픽셀을 50 또는 100 픽셀 오른쪽으로 이동하여 첫 번째 행에서 두 번째 및 세 번째 이미지를 생성 할 수 있습니다.


컨볼 루션 연산자가 번역과 관련하여 통근한다는 것을 알 수 있습니다. 당신이 말다 경우 fg ,이 문제는 컨 볼빙 된 (convolved) 출력 변환하지 않는 경우 fg 당신이 번역하는 경우, 또는 f 또는 g 먼저 다음을 컨 볼브. Wikipedia는 조금 더 있습니다.

변형 불변 객체 인식에 대한 한 가지 접근 방식은 객체의 "템플릿"을 가져 와서 이미지에서 객체의 가능한 모든 위치와 관련시키는 것입니다. 위치에서 큰 응답을 얻으면 템플릿과 유사한 객체가 해당 위치에 있음을 나타냅니다. 이 접근 방식을 종종 템플릿 일치 라고 합니다.


불변성 대 등변 량

Santanu_Pattanayak의 대답은 ( 여기 ) 번역의 차이가 있음을 지적 불변성 및 번역 equivariance . 변환 불일치 란 입력이 어떻게 이동되는지에 관계없이 시스템이 정확히 동일한 응답을 생성 함을 의미합니다. 예를 들어, 얼굴 탐지기는 맨 위 행의 세 이미지 모두에 대해 "얼굴 찾기"를보고 할 수 있습니다. 등분 산은 시스템이 여러 위치에서 똑같이 잘 작동하지만 응답이 대상의 위치와 이동 함을 의미합니다. 예를 들어, "face-iness"의 열 맵은 첫 번째 행의 이미지를 처리 ​​할 때 왼쪽, 중앙 및 오른쪽에서 비슷한 범프를 갖습니다.

이것은 때때로 중요한 구별이지만, 많은 사람들은 두 가지 현상을 "불변성"이라고 부릅니다. 특히 등변 량 반응을 변하지 않는 반응으로 변환하는 것은 사소한 일이므로 모든 위치 정보를 무시하면됩니다).


2
기꺼이 도와 드리겠습니다. 이것은 저의 큰 연구 관심사 중 하나이므로 유용한 다른 것이 있다면, 내가 할 수있는 일을 보게 될 것입니다.
Matt Krause

CNN을 사용하여 번역 불일치가 달성되는 방법을 설명해 주시겠습니까? CNN에서 컨볼 루션 레이어의 활성화는 변환시 변하지 않습니다. 이미지가 이동함에 따라 이동합니다 (즉, 변이가 아닌 등변 량으로 변환됩니다). 이러한 활성화는 일반적으로 풀링 레이어로 제공되며 번역에도 변하지 않습니다. 그리고 풀링 층은 완전히 연결된 층으로 공급 될 수있다. 완전히 연결된 레이어의 가중치가 변환 불변 동작으로 변환을 동일하게 변경합니까?
최대

@max, Pooling은 변환 불변성을 증가 시키며, 특히 max-pooling (!)은 풀링 주변의 공간 정보를 완전히 무시합니다. 딥 러닝 deeplearningbook.org/contents/convnets.html의 9 장 (335 페이지에서 시작)을 참조하십시오. 이 아이디어는 신경 과학에서도 인기가 있습니다. HMAX 모델 (예 : maxlab.neuro.georgetown.edu/docs/publications/nn99.pdf )은 평균 및 최대 풀링 조합을 사용하여 번역 (및 기타 종류의 ) 불일치.
매트 크라우스

1
맞아, 풀링은 작은 번역에 대해 불변성을 제공합니다 (더 큰 교대에 대해 생각하고 있었지만 아마도 각 풀링 계층이 점차적으로 더 큰 교대를 처리 할 수있었습니다). 그러나 완전한 컨볼 루션 네트워크는 어떻습니까? 풀링이 없으면 무엇이 (적어도 대략적인) 불변성을 제공합니까?
최대

1
@Fredom, 그것은 새로운 질문으로 더 나을 수도 있지만 간단히 말하면 오디오 신호는 시간에 따라 앞으로 움직일 때에도 같은 소리를냅니다 (예를 들어, 처음에 많은 침묵을 추가하여). 그러나 주파수 영역에서 주파수를 이동하면 다르게 들립니다 . 스펙트럼이 이동 될뿐만 아니라 주파수 (예 : 고조파) 간의 관계도 왜곡됩니다.
매트 크라우스

4

나는 번역 불일치가 무엇을 의미하는지에 대해 약간의 혼란이 있다고 생각합니다. 컨볼 루션은 이미지의 객체가 영역 A에 있고 컨벌루션을 통해 영역 B의 출력에서 ​​피처가 감지되면 이미지의 객체가 A '로 변환 될 때 동일한 피처가 감지되는 경우 변환 등분 산을 의미합니다. 출력 피처의 위치는 필터 커널 크기에 따라 새로운 영역 B '로 변환됩니다. 이것을 번역 등분 산이라고하며 번역 불일치가 아닙니다.


2

대답은 실제로 처음에 보이는 것보다 까다 롭습니다. 일반적으로 변환 불일치는 프레임에서 개체가 나타나는 위치에 상관없이 개체를 인식한다는 것을 의미합니다.

프레임 A와 B의 다음 그림에서 비전이 단어의 번역 불일치를 지원하는 경우 "스트레스"라는 단어를 인식합니다 . 여기에 이미지 설명을 입력하십시오

불변이 문자에서만 지원되는 경우 프레임 C는 프레임 A 및 B와 동일하므로 정확히 동일한 문자를 갖기 때문에 단어 라는 단어를 강조했습니다 .

실제 용어로 CNN을 글자로 훈련시킨 경우 MAX POOL과 같은 것이 글자의 번역 불변을 달성하는 데 도움이되지만 반드시 단어의 번역 불변을 초래할 수는 없습니다. 풀링은 다른 지형지 물의 위치와 관계없이 지형지 물 (해당 레이어에서 추출)을 가져 와서 문자 D와 T의 상대 위치에 대한 지식을 잃어 버리고 단어 STRESSED와 DESSERTS는 동일하게 보입니다.

용어 자체는 아마도 물리학에서 나 왔으며 , 여기서 트랜 슬 레이션 대칭 은 공간에서의 변환에 관계없이 방정식이 동일하게 유지됨을 의미합니다.


1

S

귀하의 답변은 부분적으로 정확하지만 혼란을 초래합니다. 컨볼 루션 레이어 자체 또는 출력 기능 맵이 변환 등변 량 인 것은 사실입니다. 최대 풀링 레이어가하는 것은 @Matt가 지적한 것처럼 약간의 변환 불변성을 제공하는 것입니다.

즉, 최대 풀링 레이어 기능과 결합 된 기능 맵의 등분 산은 네트워크의 출력 레이어 (softmax)에서 변환 불일치를 초래합니다. 위의 첫 번째 이미지 세트는 왼쪽 또는 오른쪽으로 변환되었지만 "상태"라는 예측을 계속 생성합니다. 입력 변환에도 불구하고 예측이 "상태"(즉, 동일)로 유지된다는 사실은 네트워크가 일부 변환 불변을 달성했음을 의미합니다.


풀링이 번역 불일치로 이어지는 지 확실하지 않습니다.
Aksakal

적당히 그렇습니다. 최대 풀링 연산자는 주어진 창에서 최대 픽셀 값을 출력으로 사용합니다. 최대 픽셀 값의 공간 위치가 관련이 없기 때문에 (일부 공차 내) 수학적으로 약간의 불일치가 필요합니다.
mr e
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.