Hinton의“캡슐 이론”은 어떻게 작동합니까?


34

Geoffrey Hinton은 신경망에서 "캡슐 이론"이라고 불리는 것을 연구하고 있습니다. 이것이 무엇이며 어떻게 작동합니까?


8
이제이 논문을 볼 수 있습니다 : arxiv.org/abs/1710.09829 캡슐 간의 동적 라우팅 Sara Sabour, Nicholas Frosst, Geoffrey E Hinton
Danke Xie

1
최신 정보와 관련된 관련 질문이 있습니다 (2017 년 11 월) : Capsule Networks의 기본 개념은 무엇입니까?
mjul

답변:


30

아직 출판되지 않은 것 같습니다. 온라인에서 가장 유용한 것은 이 대화에 대한 슬라이드 입니다 . (몇몇 사람들은 이 링크에 대한 이전 대화를 참조 하지만 슬프게도이 답변을 쓸 때 깨졌습니다.)

제 생각에는 신경망 내부에서 서브 네트워크 생성을 공식화하고 추상화하려는 시도입니다. 즉, 표준 신경망을 보면 레이어가 완전히 연결됩니다 (즉, 레이어 1의 모든 뉴런은 레이어 0의 모든 뉴런에 액세스 할 수 있으며 레이어 2의 모든 뉴런에 의해 자체 액세스됩니다). 그러나 이것은 분명히 유용하지 않습니다. 예를 들어, 각각 별도의 작업을 전문으로하는 n 개의 병렬 계층 스택 ( '캡슐')이있을 수 있습니다 (성공적으로 완료하려면 둘 이상의 계층이 필요할 수 있음).

결과를 올바르게 상상한다면 이보다 정교한 그래프 토폴로지는 결과 네트워크의 효율성과 해석 성을 쉽게 향상시킬 수있는 것처럼 보입니다.


9
이 논문은 현재 (2017 년 10 월) 출판되었습니다 : arxiv.org/pdf/1710.09829.pdf
machinaut

13

이전 답변을 보완하기 위해 : 원시 데이터에서 저수준 캡슐을 배우는 것에 관한 논문이 있지만, 소개 섹션에서 캡슐에 대한 Hinton의 개념을 설명합니다 : http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf

위의 답변에서 MIT 대화에 대한 링크가 다시 작동하는 것 같습니다.

Hinton에 따르면, "캡슐 (capsule)"은 개체가 제한된 도메인 내에 존재하는지 여부를 나타내는 "instantiation parameter"와 엔티티의 자세를 지정하는 "pose parameters"의 벡터를 모두 출력하는 레이어 내 뉴런의 하위 집합입니다. 정식 버전.

저수준 캡슐에 의해 출력 된 파라미터는 고수준 캡슐에 의해 표현 된 개체의 포즈에 대한 예측으로 변환되는데, 이는 예측이 동의하고 자체 파라미터를 출력하면 활성화된다 (고수준 포즈 파라미터는 수신 된 예측의 평균이다) ).

Hinton은 이러한 고차원의 우연의 일치 탐지가 뇌의 작은 열 구성을위한 것이라고 추측합니다. 그의 주요 목표는 컨볼 루션 네트워크에서 사용되는 최대 풀링을 대체하는 것으로 보이며, 더 깊은 레이어는 포즈에 대한 정보를 잃습니다.


4

캡슐 네트워크는 기계에서 인간의 뇌에 대한 Hinton의 관찰을 모방하려고 시도합니다. 동기 부여는 신경망이 부품의 공간 관계에 대한 더 나은 모델링이 필요하다는 사실에서 비롯됩니다. 공존을 모델링하는 대신 상대 위치를 무시하고 캡슐 네트는 계층을 따라 서로 다른 하위 부분의 전체 상대 변환을 모델링하려고합니다. 이것은 다른 사람들이 위에서 설명한 것처럼 eqivariance와 invariance 트레이드 오프입니다.

따라서 이러한 네트워크는 다소 관점 / 방향 인식을 포함하고 다른 방향에 다르게 반응합니다. 이 속성은 잠재적 공간 특성에 해석 가능한 포즈 특정 세부 사항이 포함되어 있기 때문에 잠재적으로 포즈 추정을 수행 할 수있는 기능을 도입하면서 더욱 차별화됩니다.

이 모든 것은 네트워크의 또 다른 계층을 연결하는 대신 계층 내에 캡슐이라는 중첩 계층을 포함하여 수행됩니다. 이 캡슐은 노드 당 스칼라 대신 벡터 출력을 제공 할 수 있습니다.

이 논문의 중요한 공헌은 표준 최대 풀링을 스마트 전략으로 대체하는 동적 라우팅입니다. 이 알고리즘 은 캡슐 출력에 평균 이동 클러스터링 을 적용 하여 출력이 위 계층의 해당 상위에만 전송되도록합니다.

저자는 또한 기여금을 마진 손실 및 재구성 손실과 결합하여 MNIST에서 과제를 더 잘 배우고 최첨단 결과를 보여줍니다.

최근 논문의 이름은 캡슐 간 동적 라우팅 이며 Arxiv에서 사용할 수 있습니다 ( https://arxiv.org/pdf/1710.09829.pdf) .


3

캡슐 간의 논문 동적 라우팅

캡슐은 활동 벡터가 개체 또는 개체 부분과 같은 특정 유형의 개체의 인스턴스화 매개 변수를 나타내는 뉴런 그룹입니다. 우리는 활동 벡터의 길이를 사용하여 실체가 존재할 확률과 인스턴스화 매개 변수를 나타내는 방향을 나타냅니다. 한 레벨의 활성 캡슐은 변환 매트릭스를 통해 상위 레벨 캡슐의 인스턴스화 매개 변수를 예측합니다. 여러 예측이 일치하면 더 높은 수준의 캡슐이 활성화됩니다. 우리는 차별적으로 훈련 된 다층 캡슐 시스템이 MNIST에서 최첨단 성능을 달성하고 고도로 겹치는 숫자를 인식하는 데있어서 회선 네트워크보다 상당히 우수함을 보여줍니다. 이러한 결과를 달성하기 위해 계약 별 반복 라우팅 메커니즘을 사용합니다. 하위 수준 캡슐은 출력이 하위 수준 캡슐에서 나오는 예측과 함께 큰 스칼라 곱을 갖는 상위 수준의 캡슐로 출력을 보내는 것을 선호합니다. 검토 자의 의견을 반영하기 위해이 문서의 최종 버전이 개정 중입니다.


2
좋은 대답은 일반적으로 단순한 견적 이상의 것입니다. 일반적으로 더 명확한 방식으로 다시 말하거나 더 깊이 들어갈 수 있습니다. 좋은 답변을 얻는 데 필요한 인용문은 거의 없습니다. 편집을 통해 약간 개선 할 수 있다고 생각하십니까 ?
user58

3

Convolutional 신경망의 주요 장점 중 하나는 번역에 대한 불변성 입니다. 그러나 이러한 불변은 가격과 함께 제공됩니다. 즉, 서로 다른 기능이 서로 어떻게 관련되어 있는지 고려하지 않습니다. 예를 들어, 얼굴 사진이 있다면 CNN은 입 특징과 코 특징 사이의 관계를 구별하는 데 어려움이있을 것입니다. 최대 풀링 레이어가이 효과의 주요 원인입니다. 우리가 최대 풀링 레이어를 사용할 때, 우리는 입과 소음의 정확한 위치를 잃고 그것들이 서로 어떻게 관련되어 있는지 말할 수 없기 때문입니다.

캡슐은 CNN의 이점을 유지하고이 단점을 두 가지 방식으로 수정하려고합니다.

  1. 불일치 :이 논문 에서 인용

캡슐이 제대로 작동하면 시각적 개체가 존재할 확률은 국소 적으로 변하지 않습니다. 개체가 캡슐에 포함 된 제한된 도메인 내에서 가능한 모양의 매니 폴드 위로 움직일 때 변하지 않습니다.

다시 말해, 캡슐은 우리가 입이나 코처럼 찾고있는 특정 기능의 존재를 고려합니다. 이 속성은 캡슐이 CNN과 동일하게 변하지 않는 번역인지 확인합니다.

  1. 등분 산 : 피처 변환을 불변 으로 만드는 대신 캡슐은 변환 등가 또는 관점 등가로 만듭니다. 다시 말해, 지형지 물이 이미지에서 이동하고 위치를 변경함에 따라 지형지 물 벡터 표현도 같은 방식으로 변경되어 등변 형이됩니다. 캡슐의이 특성은 처음에 언급 한 최대 풀링 레이어의 단점을 해결하려고합니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.