SURF 기능 계산 프로세스 이해


9

그래서 SURF (Bay, Ess, Tuytelaars, Van Gool : SURF (Speeded -Up Robust Features) ) 에 관한 논문을 읽었으며 아래 단락을 이해할 수 없습니다.

박스 필터와 일체형 이미지를 사용하기 때문에 이전에 필터링 된 레이어의 출력에 동일한 필터를 반복적으로 적용 할 필요는 없지만 원본 이미지에 정확히 동일한 속도로 모든 크기의 박스 필터를 직접 적용 할 수 있습니다. 병렬로도 (후자는 여기서 악용되지는 않지만). 따라서 스케일 공간은 이미지 크기를 반복적으로 줄이지 않고 필터 크기를 업 스케일링하여 분석됩니다 (그림 4).

This is figure 4 in question.

그림 4

추신 : 종이에는 이미지에 대한 설명이 있지만 용지의 전체 내용은 위의 특정 단락을 기준으로합니다. 이 문서를 읽은 사람이 있다면 여기에서 무슨 일이 일어나고 있는지 간략하게 말씀해 주시겠습니까? 전체 수학적 설명은 먼저 이해하기가 매우 복잡하므로 도움이 필요합니다. 감사.

편집, 문제 커플 :

1.

각 옥타브는 일정한 수의 스케일 레벨로 세분됩니다. 적분 이미지의 불 연속적 특성으로 인해, 2 개의 후속 스케일 사이의 최소 스케일 차이는 도출 방향 (x 또는 y)으로 부분 2 차 도함수의 양 또는 음의 로브의 길이 lo에 따라 달라집니다. 필터 크기 길이의 3 분의 1입니다. 9x9 필터의 경우이 길이 lo는 3입니다. 두 개의 연속 레벨의 경우 크기를 불균일하게 유지하여 중앙 픽셀의 존재를 보장하려면이 크기를 최소 2 픽셀 (모든면에 1 픽셀) 씩 늘려야합니다. . 결과적으로 마스크 크기가 6 픽셀 씩 증가합니다 (그림 5 참조).

Figure 5

그림 5

주어진 맥락에서 선을 이해할 수 없었습니다.

연속적인 2 단계의 경우 크기를 불균일하게 유지하고 중앙 픽셀이 존재하도록하려면이 크기를 최소 2 픽셀 (모든면에 1 픽셀) 씩 늘려야합니다.

나는 그들이 이미지의 길이로 무언가를 시도하고 있다는 것을 알고 있습니다. 심지어 그것들을 홀수 시키려고하면 중앙 픽셀이있어 픽셀 그라디언트의 최대 또는 최소를 계산할 수 있습니다. 나는 그 맥락 적 의미에 대해 약간 공상입니다.

2.

디스크립터를 계산하기 위해 Haar wavelet이 사용됩니다.

하 얼렛

중간 지역은 어떻습니까  엑스 그러나 높은  |엑스|.

삼.

다른 것

대략적인 필터를 사용해야 할 필요성은 무엇입니까?

4. 나는 그들이 필터의 크기를 알아내는 방법에 문제가 없습니다. 그들은 경험적으로 무언가를“먹었다”. 그러나이 줄에 약간의 잔소리가 있습니다.

이전 섹션에서 소개 한 9x9 필터의 출력은 초기 스케일 레이어로 간주되며, 여기서 스케일 s = 1.2 (σ = 1.2 인 가우스 미분 계수)라고합니다.

그들은 σ의 가치에 대해 어떻게 알았습니까? 또한 스케일링 계산은 아래 이미지에 어떻게 표시됩니까?이 이미지에 대해 언급 한 이유 s=1.2는 그 출처에 대해 명확하게 언급하지 않고 값이 계속 반복되기 때문입니다. 스케일 이미지

5.L 가우시안 필터와 이미지의 2 차 그라디언트의 컨벌루션 (convolution)으로 표현되는 헤 시안 매트릭스 (Hessian Matrix) .

그러나 "근사 된"결정자는 2 차 가우스 필터와 관련된 항만 포함한다고합니다.

w은 다음과 같습니다.

왜 결정자가 위와 같이 계산되는지, 그리고 대략 Hessian과 Hessian 행렬의 관계는 무엇입니까?


야! 귀하의 질문에 저자 이름과 기사 제목을 추가했습니다. 먼저 링크가 끊어 지더라도 기사를 검색 할 수 있습니다. 둘째, 연구를하는 사람으로서 저자의 이름과 출판물 이름을 쓴 저자는 저작물을 인정할 수있는 최소한의 방법이라고 생각합니다.)
penelope

@penelope : 사람들이 저를 망각에 빠뜨릴 까봐 두려웠습니다.
motiur

최근에 가장 흥미로운 질문 중 하나 인 것 같습니다. 나는 SURF에 결코 들어 가지 않았지만 내일 살펴보고 기여할 수 있는지, 질문이 실제로 흥미를 갖게 만들었습니다 :) 및 PS : "공식적인"Uni 프로젝트의 일부로이 작업을 수행하는 경우 관리자가 기꺼이 도와 줄 것입니다 (특히 마스터 수준 인 경우). 자신의 작업의 일부 입니다 방법 과학 문헌을 읽는 방법을 가르쳐 할 수 있습니다.
penelope

PPS : 통합 이미지상자 필터 라는 용어에 대한 간단한 설명을 추가하기 위해 질문을 편집하고 싶을 수도 있습니다 . 이해하는 것을 이해하면 이해하지 못하는 것을 이해하는 데 도움이 될 것입니다.)
penelope

@penelope : 당신은 아주 좋은 여자 / 남자입니다. 그리고 나는이 논문에 대한 문헌 검토를 할 필요가 없다. 나는 2004 년과 1999 년에 David Lowe가 저술 한 논문을 읽었다. 그 논문은 상당히 불안정했고 거기에 대한 유튜브 강의도 있었다. 문제는이 논문에서 사용되는 수많은 수학적 용어, 즉 SURF를 사용한다는 것입니다. 머리에 수학적 모델이 없다면 주요 아이디어를보기가 까다로울 수 있습니다.
motiur

답변:


10

SURF 란 무엇입니까?

무슨 일이 일어나고 있는지 정확하게 이해하려면 SIFT 도 숙지해야합니다 . SURF는 기본적으로 SIFT의 근사치입니다. 이제 실제 질문은 SIFT가 무엇입니까? .

SIFT는 키포인트 검출기키포인트 디스크립터 입니다. 검출기 부분에서 SIFT는 본질적으로 Harris 코너와 같은 클래식 코너 검출기의 멀티 스케일 변형이며 스케일을 자동 조정할 수 있습니다. 그런 다음 위치와 패치 크기 (스케일에서 파생 됨)가 주어지면 설명자 부분을 계산할 수 있습니다.

SIFT는 국부적으로 적절한 이미지 조각을 일치시키는 데 매우 우수하지만 한 가지 단점이 있습니다. 계산하는 데 비용이 많이 듭니다 (즉, 길다). 가우스 스케일-공간 (검출기 부분)을 계산 한 다음, 그래디언트 방향의 히스토그램 (설명자 부분)을 계산하는 데 많은 시간이 소요됩니다.

SIFT와 SURF는 자동 스케일 (가우스 크기) 선택을 통해 가우스 차이로 볼 수 있습니다. 먼저 입력 이미지가 다른 스케일로 필터링되는 스케일 공간을 구성합니다. 스케일 공간은 피라미드로 볼 수 있는데, 여기서 두 개의 연속 이미지는 스케일 변경 (가우시안 저역 통과 파이터의 크기가 변경됨)과 관련이 있으며 스케일은 옥타브 (즉, 큰 변경)로 그룹화됩니다. 가우스 필터의 크기로).

  • SIFT에서 이는 다음 옥타브의 스케일에 도달 할 때까지 고정 폭의 가우스로 입력을 반복적으로 필터링하여 수행됩니다.
  • SURF에서는 통합 이미지 트릭을 사용하여 가우시안 필터 크기로 인해 런타임 페널티가 발생하지 않습니다. 따라서 이전 스케일의 결과를 사용하지 않고 각 스케일에서 필터링 된 이미지를 직접 계산합니다.

근사 부분

가우시안 스케일-공간 및 구배 방향의 히스토그램을 계산하는 것은 길기 때문에, 이러한 계산을 빠른 근사치로 대체하는 것이 좋습니다 (SURF의 저자에 의해 선택됨).

저자는 SIFT에서 사용되는 것과 같은 작은 가우시안이 사각형 적분 ( 상자 흐림 이라고도 함)으로 근사화 될 수 있다고 언급했습니다 . 이 사각형 평균은 필수적인 이미지 트릭 덕분에 매우 빠르게 얻을 수있는 좋은 속성을 가지고 있습니다.

또한 가우스 스케일 공간은 실제로 그 자체로 사용되지 않고 가우시안 라플라시안 (Laplacian of Gaussians)에 가깝게 사용 됩니다 (SIFT 논문에서 찾을 수 있음). 따라서 가우시안 블러 링 된 이미지 만이 아니라 그 파생어와 차이점이 필요합니다. 따라서 상자로 가우시안을 근사화한다는 아이디어를 조금 더 나아가십시오. 먼저 가우스를 필요한만큼 여러 번 도출 한 다음 올바른 크기의 상자로 각 로브를 근사화하십시오. 결국에는 일련의 Haar 기능이 생깁니다.

2 씩 증가

당신이 짐작했듯이 이것은 구현 아티팩트 일뿐입니다. 목표는 중앙 픽셀을 갖는 것입니다. 특징 디스크립터는 설명 될 이미지 패치의 중심에 대하여 계산된다.

중간 지역

검은 광선에서 흰 광선으로 갈 때 열의 모든 픽스엑스=. 그런 다음 흰색에서 검은 색으로 이동하면 반대의 합계가 나타납니다.열의 모든 픽스엑스=. 따라서, 당신은 작은엑스 창을 위해, 그러나 더 큰 크기의 합.

매직 넘버

첫 번째 스케일은 σ=1.2(또는 일부 논문에서는 1.4). 자연스러운 (실제) 선명한 이미지는 폭이 희미한 커널을 가진 이상적인 (별칭 없음) 이미지의 컨볼 루션의 결과로 간주 될 수 있기 때문입니다.σ=1.2. 나는 그것이 어디에서 왔는지 기억할 수 없지만 A-SIFT에 대한 Guoshen Yu의 연구에서도 명시 적으로 연구 되었으므로이 페이지를 확인할 수 있습니다 .


설명 주셔서 감사합니다, 그것은 몇 가지 물건을 지 웠습니다.
motiur

새 질문에 대한 답변을 수정했습니다.
sansuiso

예, 감사합니다. 종이는 길기 때문에 한 번에 많은 일이 발생합니다.
motiur

최신 편집 내용을 보시겠습니까?
motiur

1
일반적인 공유 지식 (소형 가우시안은 상자 흐림 효과로 근사치), 실험 (실제 이미지에서 관심있는 대상의 최소 / 최대 크기) 및 수학 (초기 패치 크기, 사각형 및 가우시안에 적합)이 혼합되어 있습니다. .
sansuiso

4

잠재적 인 관심 지점을 식별하기 위해 이미지 차이 처리 (DOG) 가 종종 이미지를 처리하는 데 사용되므로 크기와 방향이 변하지 않습니다.

SIFT에서, 이미지 피라미드는 증가하는 sigma값의 DOG로 각 층을 필터링 하고 차이를 취 함으로써 확립된다 .

반면 SURF는 2 차 가우시안 부분 도함수를 가우시안 라플라시안 (Loplacian of Gaussian) 및 크기가 다른 사각형 필터 (9 * 9, 15 * 15, ...) 로 훨씬 빠르게 근사화 합니다. 계산 비용은 필터 크기와 무관합니다. sigma피라미드에서 더 높은 레벨에 대한 다운 샘플링 (변경 )은 없지만 필터 크기의 업 스케일 만 동일한 해상도의 이미지를 생성합니다.

편집하다

하나 추가 참고 : 논문의 저자는 더 커널과 4 개 방향 (X, Y, XY, YX)에서 가우스 두 번째 유도체를 단순화 [1 -2 1], [1 -2 1]', [1 -1;-1 1],와 [-1 1;1 -1]. 필터 크기가 커지면 단순화 된 커널 영역을 확장하여 더 큰 커널 영역을 달성하면됩니다. 스케일이 다른 DOG와 동일합니다 (LoG 곡선은 DOG와 모양이 같으며 필터 크기도 너비가 동일합니다).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.