이미지에서 자동차 모델을 인식하기위한 좋은 기능 / 알고리즘


9

객체 인식, 특히 자동차 모델 인식에 관한 질문이 있습니다! 다른 이미지에서 동일한 자동차 모델을 식별하는 작업의 시작에 있습니다. 현재 3D 객체 인식을위한 최고의 알고리즘 중 하나는 SIFT라고 생각하지만 데모 구현으로 조금 놀아 본 후이 알고리즘이 자동차와 같은 반짝이는 금속 객체, 특히 색상이 다른 경우 약간의 문제가 있다는 이상한 느낌이 들었습니다.

누구 든지이 영역에서 일반적으로 다른 이미지에서 동일한 자동차 모델을 찾는 작업에 적합한 알고리즘을 알고 있습니까?

도움을 주셔서 감사합니다.


2
예제 이미지를 게시 할 수 있습니까?
endolith

확실한. 자동차 모델의 모델을 만드는 이미지 ;-)는 다음과 같습니다. s5 쿠페 훈련 1 또는 s5 쿠페 훈련 2와 비슷하지만 '정상적인'그림. 쿼리 이미지는 s5 쿠페 쿼리 1 과 비슷할 수 있습니다 .
jstr

SIFT, GLOH 또는 SURF와 같은 대체 기능 탐지기는 차량에서 적합한 키포인트를 식별하기 위해 어떤 것이 있습니까?
jstr

@jstr 아래에 설명 된 계획을 구현했다면 얼마나 잘 작동 했습니까?
퍼즐을 풀기

답변:


7

소위 "단어"또는 "시각적 단어"접근 방식을 살펴 보겠습니다. 이미지 분류 및 식별에 점점 더 많이 사용되고 있습니다. 이 알고리즘은 일반적으로 이미지에서 SIFT 포인트와 같은 강력한 포인트를 감지하여 시작합니다. 찾은 포인트 주변의 영역 (귀하의 경우 128 비트 SIFT 설명자)이 사용됩니다.

가장 간단한 형태로, 예를 들어 k- 평균을 사용하여 모든 이미지로부터 모든 디스크립터로부터 모든 데이터를 수집하고 클러스터링 할 수있다. 모든 원본 이미지에는 여러 클러스터에 기여하는 설명자가 있습니다. 이러한 클러스터의 중심, 즉 시각적 단어는 이미지의 새로운 설명 자로 사용될 수 있습니다. 기본적으로 디스크립터가 설명하는 이미지가있는 클러스터가 이미지 범주를 나타내기를 바랍니다.

다시 말하지만, 가장 간단한 경우에는 클러스터 목록이 있으며 이미지 당 이러한 클러스터 중 해당 이미지의 설명자를 포함하는 클러스터 수와 수를 계산합니다. 이것은 텍스트 검색에 사용되는 용어 빈도 / 역 문서 빈도 (TD / IFD) 방법과 유사합니다. 이 빠르고 더러운 Matlab 스크립트를 참조하십시오 .

이 접근법은 적극적으로 연구되었으며 훨씬 더 고급 알고리즘이 있습니다.

VLfeat 웹 사이트에는 caltech 101 데이터 세트를 분류하여이 방법에 대한 고급 고급 데모 가 포함되어 있습니다 . Caltech 자체의 결과 및 소프트웨어도 주목할 만합니다 .


모리츠, 답변 주셔서 감사합니다. 나는 그것에 대해 생각할 것이다! 그러나 하나의 질문입니다. '시각적 단어'가 있다면 그 단어 사이의 거리를 어떻게 측정합니까? SIFT 디스크립터를 사용한다고 생각합니까? -Lowe는 SIFT 디스크립터 모델을 구축하여 3D 객체를 인식하는 방법을 설명하는 논문을 가지고 있습니다. 누구든지이 주제에 대한 다른 좋은 논문을 알고 있습니까 (다른 기능을 사용한 3D 객체 인식)?
jstr

이 경우 정수 벡터를 군집화하는 것처럼 유클리드 거리 만 있습니다. 나는 당신이 그 자체로 클러스터 중심들 사이의 거리를 측정 할 필요는 없다고 생각합니다. 오히려 쿼리 이미지 (그리고 쿼리 설명자)가 제시 될 때이 설명자들이 가장 가까운 중심에 대해 측정합니다.
Maurits

거리 측정을 사용하는 것이 좋습니다 ;-) 그러나 어떤 데이터에 대해? 시각적 단어 당 SIFT 설명자에서?
jstr

실제로 초기 클러스터링에 대한 메트릭으로서 쿼리 디스크립터가 어느 중심 / 시각 어에 가장 가까운지를 확인하고 마지막으로 쿼리 td / idf 벡터를 데이터베이스의 데이터베이스와 비교합니다.
Maurits

알았어 ;-)하지만 거리 측정이 작동하는 데이터는 무엇입니까? SIFT 디스크립터에서?
jstr
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.