SURF 기능 계산 프로세스 이해

그래서 SURF (Bay, Ess, Tuytelaars, Van Gool : SURF (Speeded -Up Robust Features) ) 에 관한 논문을 읽었으며 아래 단락을 이해할 수 없습니다.

박스 필터와 일체형 이미지를 사용하기 때문에 이전에 필터링 된 레이어의 출력에 동일한 필터를 반복적으로 적용 할 필요는 없지만 원본 이미지에 정확히 동일한 속도로 모든 크기의 박스 필터를 직접 적용 할 수 있습니다. 병렬로도 (후자는 여기서 악용되지는 않지만). 따라서 스케일 공간은 이미지 크기를 반복적으로 줄이지 않고 필터 크기를 업 스케일링하여 분석됩니다 (그림 4).

This is figure 4 in question.

그림 4

추신 : 종이에는 이미지에 대한 설명이 있지만 용지의 전체 내용은 위의 특정 단락을 기준으로합니다. 이 문서를 읽은 사람이 있다면 여기에서 무슨 일이 일어나고 있는지 간략하게 말씀해 주시겠습니까? 전체 수학적 설명은 먼저 이해하기가 매우 복잡하므로 도움이 필요합니다. 감사.

편집, 문제 커플 :

각 옥타브는 일정한 수의 스케일 레벨로 세분됩니다. 적분 이미지의 불 연속적 특성으로 인해, 2 개의 후속 스케일 사이의 최소 스케일 차이는 도출 방향 (x 또는 y)으로 부분 2 차 도함수의 양 또는 음의 로브의 길이 lo에 따라 달라집니다. 필터 크기 길이의 3 분의 1입니다. 9x9 필터의 경우이 길이 lo는 3입니다. 두 개의 연속 레벨의 경우 크기를 불균일하게 유지하여 중앙 픽셀의 존재를 보장하려면이 크기를 최소 2 픽셀 (모든면에 1 픽셀) 씩 늘려야합니다. . 결과적으로 마스크 크기가 6 픽셀 씩 증가합니다 (그림 5 참조).

Figure 5

그림 5

주어진 맥락에서 선을 이해할 수 없었습니다.

연속적인 2 단계의 경우 크기를 불균일하게 유지하고 중앙 픽셀이 존재하도록하려면이 크기를 최소 2 픽셀 (모든면에 1 픽셀) 씩 늘려야합니다.

나는 그들이 이미지의 길이로 무언가를 시도하고 있다는 것을 알고 있습니다. 심지어 그것들을 홀수 시키려고하면 중앙 픽셀이있어 픽셀 그라디언트의 최대 또는 최소를 계산할 수 있습니다. 나는 그 맥락 적 의미에 대해 약간 공상입니다.

디스크립터를 계산하기 위해 Haar wavelet이 사용됩니다.

하 얼렛

중간 지역은 어떻습니까 $\sum\ dx$ 그러나 높은 $\sum\ |dx|$ .

삼.

다른 것

대략적인 필터를 사용해야 할 필요성은 무엇입니까?

4. 나는 그들이 필터의 크기를 알아내는 방법에 문제가 없습니다. 그들은 경험적으로 무언가를“먹었다”. 그러나이 줄에 약간의 잔소리가 있습니다.

이전 섹션에서 소개 한 9x9 필터의 출력은 초기 스케일 레이어로 간주되며, 여기서 스케일 s = 1.2 (σ = 1.2 인 가우스 미분 계수)라고합니다.

그들은 σ의 가치에 대해 어떻게 알았습니까? 또한 스케일링 계산은 아래 이미지에 어떻게 표시됩니까?이 이미지에 대해 언급 한 이유 s=1.2는 그 출처에 대해 명확하게 언급하지 않고 값이 계속 반복되기 때문입니다. 스케일 이미지

5.L 가우시안 필터와 이미지의 2 차 그라디언트의 컨벌루션 (convolution)으로 표현되는 헤 시안 매트릭스 (Hessian Matrix) .

그러나 "근사 된"결정자는 2 차 가우스 필터와 관련된 항만 포함한다고합니다.

값 w은 다음과 같습니다.

왜 결정자가 위와 같이 계산되는지, 그리고 대략 Hessian과 Hessian 행렬의 관계는 무엇입니까?

image-processing computer-vision multi-scale-analysis

— 운동가
소스

야! 귀하의 질문에 저자 이름과 기사 제목을 추가했습니다. 먼저 링크가 끊어 지더라도 기사를 검색 할 수 있습니다. 둘째, 연구를하는 사람으로서 저자의 이름과 출판물 이름을 쓴 저자는 저작물을 인정할 수있는 최소한의 방법이라고 생각합니다.)

— penelope

@penelope : 사람들이 저를 망각에 빠뜨릴 까봐 두려웠습니다.

— motiur

최근에 가장 흥미로운 질문 중 하나 인 것 같습니다. 나는 SURF에 결코 들어 가지 않았지만 내일 살펴보고 기여할 수 있는지, 질문이 실제로 흥미를 갖게 만들었습니다 :) 및 PS : "공식적인"Uni 프로젝트의 일부로이 작업을 수행하는 경우 관리자가 기꺼이 도와 줄 것입니다 (특히 마스터 수준 인 경우). 자신의 작업의 일부 입니다 방법 과학 문헌을 읽는 방법을 가르쳐 할 수 있습니다.

— penelope

PPS : 통합 이미지 및 상자 필터 라는 용어에 대한 간단한 설명을 추가하기 위해 질문을 편집하고 싶을 수도 있습니다 . 이해하는 것을 이해하면 이해하지 못하는 것을 이해하는 데 도움이 될 것입니다.)

— penelope

@penelope : 당신은 아주 좋은 여자 / 남자입니다. 그리고 나는이 논문에 대한 문헌 검토를 할 필요가 없다. 나는 2004 년과 1999 년에 David Lowe가 저술 한 논문을 읽었다. 그 논문은 상당히 불안정했고 거기에 대한 유튜브 강의도 있었다. 문제는이 논문에서 사용되는 수많은 수학적 용어, 즉 SURF를 사용한다는 것입니다. 머리에 수학적 모델이 없다면 주요 아이디어를보기가 까다로울 수 있습니다.

— motiur

답변:

SURF 란 무엇입니까?

무슨 일이 일어나고 있는지 정확하게 이해하려면 SIFT 도 숙지해야합니다 . SURF는 기본적으로 SIFT의 근사치입니다. 이제 실제 질문은 SIFT가 무엇입니까? .

SIFT는 키포인트 검출기 및 키포인트 디스크립터 입니다. 검출기 부분에서 SIFT는 본질적으로 Harris 코너와 같은 클래식 코너 검출기의 멀티 스케일 변형이며 스케일을 자동 조정할 수 있습니다. 그런 다음 위치와 패치 크기 (스케일에서 파생 됨)가 주어지면 설명자 부분을 계산할 수 있습니다.

SIFT는 국부적으로 적절한 이미지 조각을 일치시키는 데 매우 우수하지만 한 가지 단점이 있습니다. 계산하는 데 비용이 많이 듭니다 (즉, 길다). 가우스 스케일-공간 (검출기 부분)을 계산 한 다음, 그래디언트 방향의 히스토그램 (설명자 부분)을 계산하는 데 많은 시간이 소요됩니다.

SIFT와 SURF는 자동 스케일 (가우스 크기) 선택을 통해 가우스 차이로 볼 수 있습니다. 먼저 입력 이미지가 다른 스케일로 필터링되는 스케일 공간을 구성합니다. 스케일 공간은 피라미드로 볼 수 있는데, 여기서 두 개의 연속 이미지는 스케일 변경 (가우시안 저역 통과 파이터의 크기가 변경됨)과 관련이 있으며 스케일은 옥타브 (즉, 큰 변경)로 그룹화됩니다. 가우스 필터의 크기로).

SIFT에서 이는 다음 옥타브의 스케일에 도달 할 때까지 고정 폭의 가우스로 입력을 반복적으로 필터링하여 수행됩니다.
SURF에서는 통합 이미지 트릭을 사용하여 가우시안 필터 크기로 인해 런타임 페널티가 발생하지 않습니다. 따라서 이전 스케일의 결과를 사용하지 않고 각 스케일에서 필터링 된 이미지를 직접 계산합니다.

근사 부분

가우시안 스케일-공간 및 구배 방향의 히스토그램을 계산하는 것은 길기 때문에, 이러한 계산을 빠른 근사치로 대체하는 것이 좋습니다 (SURF의 저자에 의해 선택됨).

저자는 SIFT에서 사용되는 것과 같은 작은 가우시안이 사각형 적분 ( 상자 흐림 이라고도 함)으로 근사화 될 수 있다고 언급했습니다 . 이 사각형 평균은 필수적인 이미지 트릭 덕분에 매우 빠르게 얻을 수있는 좋은 속성을 가지고 있습니다.

또한 가우스 스케일 공간은 실제로 그 자체로 사용되지 않고 가우시안 라플라시안 (Laplacian of Gaussians)에 가깝게 사용 됩니다 (SIFT 논문에서 찾을 수 있음). 따라서 가우시안 블러 링 된 이미지 만이 아니라 그 파생어와 차이점이 필요합니다. 따라서 상자로 가우시안을 근사화한다는 아이디어를 조금 더 나아가십시오. 먼저 가우스를 필요한만큼 여러 번 도출 한 다음 올바른 크기의 상자로 각 로브를 근사화하십시오. 결국에는 일련의 Haar 기능이 생깁니다.

2 씩 증가

당신이 짐작했듯이 이것은 구현 아티팩트 일뿐입니다. 목표는 중앙 픽셀을 갖는 것입니다. 특징 디스크립터는 설명 될 이미지 패치의 중심에 대하여 계산된다.

중간 지역

검은 광선에서 흰 광선으로 갈 때 $\sum_{\text{all pix in column}} \partial x = A$ . 그런 다음 흰색에서 검은 색으로 이동하면 반대의 합계가 나타납니다. $\sum_{\text{all pix in column}} \partial x = -A$ . 따라서, 당신은 작은 $\sum \partial x$ 창을 위해, 그러나 더 큰 크기의 합.

매직 넘버

첫 번째 스케일은 $\sigma = 1.2$ (또는 일부 논문에서는 1.4). 자연스러운 (실제) 선명한 이미지는 폭이 희미한 커널을 가진 이상적인 (별칭 없음) 이미지의 컨볼 루션의 결과로 간주 될 수 있기 때문입니다. $\sigma = 1.2$ . 나는 그것이 어디에서 왔는지 기억할 수 없지만 A-SIFT에 대한 Guoshen Yu의 연구에서도 명시 적으로 연구 되었으므로이 페이지를 확인할 수 있습니다 .

— 산수 이소
소스

설명 주셔서 감사합니다, 그것은 몇 가지 물건을 지 웠습니다.

— motiur

새 질문에 대한 답변을 수정했습니다.

— sansuiso

예, 감사합니다. 종이는 길기 때문에 한 번에 많은 일이 발생합니다.

— motiur

최신 편집 내용을 보시겠습니까?

— motiur

일반적인 공유 지식 (소형 가우시안은 상자 흐림 효과로 근사치), 실험 (실제 이미지에서 관심있는 대상의 최소 / 최대 크기) 및 수학 (초기 패치 크기, 사각형 및 가우시안에 적합)이 혼합되어 있습니다. .

— sansuiso

잠재적 인 관심 지점을 식별하기 위해 이미지 차이 처리 (DOG) 가 종종 이미지를 처리하는 데 사용되므로 크기와 방향이 변하지 않습니다.

SIFT에서, 이미지 피라미드는 증가하는 sigma값의 DOG로 각 층을 필터링 하고 차이를 취 함으로써 확립된다 .

반면 SURF는 2 차 가우시안 부분 도함수를 가우시안 라플라시안 (Loplacian of Gaussian) 및 크기가 다른 사각형 필터 (9 * 9, 15 * 15, ...) 로 훨씬 빠르게 근사화 합니다. 계산 비용은 필터 크기와 무관합니다. sigma피라미드에서 더 높은 레벨에 대한 다운 샘플링 (변경 )은 없지만 필터 크기의 업 스케일 만 동일한 해상도의 이미지를 생성합니다.

편집하다

하나 추가 참고 : 논문의 저자는 더 커널과 4 개 방향 (X, Y, XY, YX)에서 가우스 두 번째 유도체를 단순화 [1 -2 1], [1 -2 1]', [1 -1;-1 1],와 [-1 1;1 -1]. 필터 크기가 커지면 단순화 된 커널 영역을 확장하여 더 큰 커널 영역을 달성하면됩니다. 스케일이 다른 DOG와 동일합니다 (LoG 곡선은 DOG와 모양이 같으며 필터 크기도 너비가 동일합니다).

— 레논 310
소스