SIFT 디스크립터에 대한 이야기의 비하인드 스토리는 무엇입니까?


9

다음은 Lowe 2004 논문 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ) 에서 발췌 한 것 입니다.

한 가지 확실한 방법은 키포인트 주변의 로컬 이미지 강도를 적절한 규모로 샘플링하고 정규화 된 상관 관계 측정을 사용하여 일치시키는 것입니다. 그러나 이미지 패치의 간단한 상관 관계는 정의 또는 3D 시점 변경 또는 비 강성 변형과 같은 샘플의 잘못된 등록을 유발하는 변화에 매우 민감합니다. Edelman, Intrator 및 Poggio (1997)는 더 나은 접근 방식을 보여주었습니다. 그들의 제안 된 표현은 생물학적 시력, 특히 일차 시각 피질의 복잡한 뉴런의 모델을 기반으로했다.이러한 복잡한 뉴런은 특정 방향 및 공간 주파수에서 구배에 반응하지만, 망막의 구배 위치는 정확하게 국소화되지 않고 작은 수용 장 위로 이동할 수 있습니다. 에델만 (Edelman) 등. 이러한 복잡한 뉴런의 기능은 다양한 관점에서 3D 물체의 매칭 및 인식을 허용하는 것으로 가정되었다.

SIFT 설명자를 이해하려고합니다. 이전 단계 (키포인트 감지기)를 이해합니다.

왜 그런 식으로 구현되는지 모르겠습니다. 이야기 뒤의 이야기를 알고 싶습니다.

답변:


1

획득 된 스케일에서 의 관심 영역 으로부터 획득 된 기술자 .64×64

이 영역을 패치로 나누면 16 패치가됩니다.64×6416×16

각 패치에 대해 그라디언트를 계산 한 다음 그라디언트의 지배적 인 방향 (상세한 내용이 있음)을 찾은 다음 지배적 인 방향을 기준 방향으로 취하여 360도에서 8 개의 각도 영역을 45 도로 나누고 그 다음에 합산합니다. 각 각도 영역에있는 각 그라디언트의 크기.

우리는 이것을 그라디언트 방향의 분포 또는 8 bin 히스토그램으로 고려할 수 있습니다 (강한 그라디언트는 분포 계산에 더 높은 가중치를 사용하여 더 많은 정보를 사용해야하므로 더 큰 정보를 필요로하므로 크기를 가중치로 사용합니다). 그런 다음이 히스토그램을 정규화합니다.

각 패치의 끝에는 8 개의 빈 히스토그램이 있으며 16 개의 패치가있어 128 개의 숫자 설명자가됩니다.

지배적 인 방향을 찾아서 설명자는 회전 불변성이됩니다. 그래디언트를 사용하면 기준선 조명과 관련하여 설명자가 변하지 않고 획득 한 히스토그램을 정규화하여 설명자가 이미지의 대비에 변하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.