더 빠른 RCNN 고정


10

앵커링에 관해 이야기 할 때의 더 빠른 RCNN 논문에서 "참조 상자 피라미드"를 사용한다는 것은 무슨 의미입니까? 이것은 각 W * H * k 앵커 포인트에서 경계 상자가 생성된다는 의미입니까?

여기서 W = 너비, H = 높이 및 k = 종횡비의 수 * 숫자 스케일

종이 링크 : https://arxiv.org/abs/1506.01497


이것은 매우 좋은 질문입니다.
Michael R. Chernick

답변:


10

앵커 설명

앵커

당분간 "참조 상자 피라미드"라는 용어를 무시하면 앵커는 지역 제안 네트워크에 공급할 고정 크기의 사각형 일뿐입니다. 앵커는 마지막 컨볼 루션 피쳐 맵에 대해 정의됩니다.(H에프이자형아르 자형이자형미디엄에프이자형아르 자형이자형미디엄)(케이)그들 중 하나이지만 이미지에 해당합니다. 각 앵커에 대해 RPN은 일반적으로 개체를 포함 할 가능성과 앵커를 올바른 위치로 이동하고 크기를 조정할 네 개의 보정 좌표를 예측합니다. 그러나 앵커의 지오메트리는 RPN과 어떤 관련이 있습니까?

실제로 손실 기능에 나타나는 앵커

RPN을 훈련 할 때 먼저 이진 클래스 레이블이 각 앵커에 할당됩니다. IoU ( Intersection-over-Union) 앵커 는 특정 임계 값보다 높은지면 진리 상자와 겹치며 양의 레이블이 지정됩니다 (예 : IoU가 지정된 임계 값보다 작은 앵커는 음수로 표시됨). 이 레이블은 손실 함수를 계산하는 데에도 사용됩니다.

RPN 손실 기능

앵커가 객체를 포함 할 확률을 결정하는 RPN의 분류 헤드 출력입니다. 부정으로 표시된 앵커의 경우 회귀로 인해 손실이 발생하지 않습니다.지면 진실 라벨은 0입니다. 즉, 네트워크는 네거티브 앵커의 출력 좌표를 신경 쓰지 않으며 올바르게 분류하는 한 행복합니다. 긍정적 인 앵커의 경우 회귀 손실이 고려됩니다.는 예측 경계 상자의 4 개의 매개 변수화 된 좌표를 나타내는 벡터 인 RPN의 회귀 헤드 출력입니다. 매개 변수화는 앵커 형상 에 따라 다르며 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

어디 엑스,와이,,h는 상자의 중심 좌표와 너비 및 높이를 나타냅니다. 변수엑스,엑스,엑스 예측 된 상자, 앵커 상자 및지면 진실 상자에 대한 것입니다. 와이,,h).

또한 레이블이없는 앵커는 분류되거나 재구성되지 않으며 RPM은 단순히 계산에서 제외시킵니다. RPN 작업이 완료되고 제안서가 생성되면 나머지는 Fast R-CNN과 매우 유사합니다.


@Fathi 수업이 많으면 어떨까요? 내가 아는 한 Fast R-CNN에서 각 교육 RoI에는 하나의 기본 진리 클래스가 할당됩니다. 그래서 여기서 비슷한 일이 발생한다고 생각합니까?
thanasissdr

@Fathi 나는 당신이 말하는 것에 전적으로 동의하므로, 당신이 나에게 동의한다고 가정합니다. Faster R-CNN에 대한 원본 논문의 저자는 단순성을 위해 두 가지 클래스 (배경 / 개체) 만 사용하여 RPN의 작동 방식을 설명하려고했습니다. 따라서 두 개의 클래스 만 갖는 대신 두 개 이상을 가질 수 있으며 알려진 교차 엔트로피 손실 함수를 취할 수 있다고 생각합니까?
thanasissdr

@thanasissdr Faster R-CNN의 기본 아이디어는 "신경망이 다른 모든 것에 능숙 할 때 지역 제안에도 사용하지 않는 이유"라는 것이 었습니다. Fast R-CNN을 표준 R-CNN과 비교할 때 유일한 차이점은 RoI 제안 (예 : SelectiveSearch 또는 EdgeBox와 같은 동일한 이전 기술을 사용하여 다시 제안)이 원시 이미지에서 컨벌루션 피쳐로 매핑 된 후 공급된다는 것입니다. FC. 이러한 방식으로 CNN을 통한 각 RoI의 전달 과정이 생략됩니다.
Mahan Fathi

Faster R-CNN에서 RPN은 적절한 지역을 제안하는 배웁니다 . RPN이 완료되면 나머지는 Fast R-CNN과 유사하며 FC는 제안을 분류하고 회귀합니다.
Mahan Fathi

@thanasissdr 예. 우리는 같은 페이지에 있습니다. RPN으로 분류 할 수 있다고 생각하지만 FC net이 분류를 다시 수행하므로 정크 제안을 거부하는 데 어려움이 없으므로 불필요합니다. 또한 파이프 라인, 분류 점수를 어떻게 사용하고 어떻게 도움이 될지 생각해보십시오. 마지막으로 Faster R-CNN에서 (배경 / 개체) 분류는 초석입니다.
Mahan Fathi

1

나는 어제이 논문을 읽었고 언뜻보기에 혼란 스러웠다. 다시 읽은 후에이 결론에 도달했습니다.

  • 원래 네트워크 (ZF 또는 VGG-16)의 마지막 계층은 리전 제안 네트워크 및 RoI 풀링의 입력으로 사용됩니다. VGG-16의 경우이 마지막 전환 레이어는입니다 7x7x512 (HxWxD).
  • 이 레이어는 3x3conv 레이어 가있는 512 차원 레이어에 매핑됩니다 . 출력 크기는 7x7x512(패딩이 사용 된 경우)입니다.
  • 이 층은 각각의 앵커 박스에 대한 전환 층 을 갖는 7x7x(2k+4k)(예를 들어 7x7x54) 층에 매핑된다 .1x1k

이제 논문의 그림 1에 따르면 입력 이미지 피라미드 (다른 스케일을 가진 동일한 이미지), 필터 피라미드 (동일한 레이어의 다른 스케일 필터) 또는 참조 상자 피라미드를 가질 수 있습니다. 후자 k는 지역 제안 네트워크의 마지막 계층에있는 앵커 박스를 말합니다 . 서로 위에 쌓인 크기가 다른 필터 (중간 케이스) 대신 다른 크기와 종횡비를 가진 필터가 서로 쌓입니다.

즉, 각 기준점 (에 대한 HxW7x7)를 참조 박스 (피라미드 k, 등 9)이 사용된다.


그러나 앵커 박스는 정확히 무엇입니까? 각 앵커 박스의 목적은 전경의 일부로 간주되는 각 앵커 박스에 대한 앵커 박스의 폭과 높이의 델타를 예측하기 위해 RPN에 대한 입력으로 사용됩니까?
BadProgrammer 2016 년

RPN은 전경 위치의 델타 시프트와 객관성 점수를 모두 예측합니다. 후자는 배경 또는 전경인지 명시 적으로 예측하려고 시도합니다 (각주 3 참조).
Pieter

3x3전환 레이어가 어떻게 변환 되는지 설명해 주 7x7시겠습니까? 프로토 스크립트에서는 마지막 VGG16 레이어에서 패딩이 1이라고 말합니다.
Klik
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.