앵커링에 관해 이야기 할 때의 더 빠른 RCNN 논문에서 "참조 상자 피라미드"를 사용한다는 것은 무슨 의미입니까? 이것은 각 W * H * k 앵커 포인트에서 경계 상자가 생성된다는 의미입니까?
여기서 W = 너비, H = 높이 및 k = 종횡비의 수 * 숫자 스케일
종이 링크 : https://arxiv.org/abs/1506.01497
앵커링에 관해 이야기 할 때의 더 빠른 RCNN 논문에서 "참조 상자 피라미드"를 사용한다는 것은 무슨 의미입니까? 이것은 각 W * H * k 앵커 포인트에서 경계 상자가 생성된다는 의미입니까?
여기서 W = 너비, H = 높이 및 k = 종횡비의 수 * 숫자 스케일
종이 링크 : https://arxiv.org/abs/1506.01497
답변:
당분간 "참조 상자 피라미드"라는 용어를 무시하면 앵커는 지역 제안 네트워크에 공급할 고정 크기의 사각형 일뿐입니다. 앵커는 마지막 컨볼 루션 피쳐 맵에 대해 정의됩니다.그들 중 하나이지만 이미지에 해당합니다. 각 앵커에 대해 RPN은 일반적으로 개체를 포함 할 가능성과 앵커를 올바른 위치로 이동하고 크기를 조정할 네 개의 보정 좌표를 예측합니다. 그러나 앵커의 지오메트리는 RPN과 어떤 관련이 있습니까?
RPN을 훈련 할 때 먼저 이진 클래스 레이블이 각 앵커에 할당됩니다. IoU ( Intersection-over-Union) 앵커 는 특정 임계 값보다 높은지면 진리 상자와 겹치며 양의 레이블이 지정됩니다 (예 : IoU가 지정된 임계 값보다 작은 앵커는 음수로 표시됨). 이 레이블은 손실 함수를 계산하는 데에도 사용됩니다.
앵커가 객체를 포함 할 확률을 결정하는 RPN의 분류 헤드 출력입니다. 부정으로 표시된 앵커의 경우 회귀로 인해 손실이 발생하지 않습니다.지면 진실 라벨은 0입니다. 즉, 네트워크는 네거티브 앵커의 출력 좌표를 신경 쓰지 않으며 올바르게 분류하는 한 행복합니다. 긍정적 인 앵커의 경우 회귀 손실이 고려됩니다.는 예측 경계 상자의 4 개의 매개 변수화 된 좌표를 나타내는 벡터 인 RPN의 회귀 헤드 출력입니다. 매개 변수화는 앵커 형상 에 따라 다르며 다음과 같습니다.
어디 h는 상자의 중심 좌표와 너비 및 높이를 나타냅니다. 변수 과 예측 된 상자, 앵커 상자 및지면 진실 상자에 대한 것입니다. ).
또한 레이블이없는 앵커는 분류되거나 재구성되지 않으며 RPM은 단순히 계산에서 제외시킵니다. RPN 작업이 완료되고 제안서가 생성되면 나머지는 Fast R-CNN과 매우 유사합니다.
나는 어제이 논문을 읽었고 언뜻보기에 혼란 스러웠다. 다시 읽은 후에이 결론에 도달했습니다.
7x7x512 (HxWxD)
.3x3
conv 레이어 가있는 512 차원 레이어에 매핑됩니다 . 출력 크기는 7x7x512
(패딩이 사용 된 경우)입니다.7x7x(2k+4k)
(예를 들어 7x7x54
) 층에 매핑된다 .1x1
k
이제 논문의 그림 1에 따르면 입력 이미지 피라미드 (다른 스케일을 가진 동일한 이미지), 필터 피라미드 (동일한 레이어의 다른 스케일 필터) 또는 참조 상자 피라미드를 가질 수 있습니다. 후자 k
는 지역 제안 네트워크의 마지막 계층에있는 앵커 박스를 말합니다 . 서로 위에 쌓인 크기가 다른 필터 (중간 케이스) 대신 다른 크기와 종횡비를 가진 필터가 서로 쌓입니다.
즉, 각 기준점 (에 대한 HxW
예 7x7
)를 참조 박스 (피라미드 k
, 등 9
)이 사용된다.
3x3
전환 레이어가 어떻게 변환 되는지 설명해 주 7x7
시겠습니까? 프로토 스크립트에서는 마지막 VGG16 레이어에서 패딩이 1이라고 말합니다.