소위 "단어"또는 "시각적 단어"접근 방식을 살펴 보겠습니다. 이미지 분류 및 식별에 점점 더 많이 사용되고 있습니다. 이 알고리즘은 일반적으로 이미지에서 SIFT 포인트와 같은 강력한 포인트를 감지하여 시작합니다. 찾은 포인트 주변의 영역 (귀하의 경우 128 비트 SIFT 설명자)이 사용됩니다.
가장 간단한 형태로, 예를 들어 k- 평균을 사용하여 모든 이미지로부터 모든 디스크립터로부터 모든 데이터를 수집하고 클러스터링 할 수있다. 모든 원본 이미지에는 여러 클러스터에 기여하는 설명자가 있습니다. 이러한 클러스터의 중심, 즉 시각적 단어는 이미지의 새로운 설명 자로 사용될 수 있습니다. 기본적으로 디스크립터가 설명하는 이미지가있는 클러스터가 이미지 범주를 나타내기를 바랍니다.
다시 말하지만, 가장 간단한 경우에는 클러스터 목록이 있으며 이미지 당 이러한 클러스터 중 해당 이미지의 설명자를 포함하는 클러스터 수와 수를 계산합니다. 이것은 텍스트 검색에 사용되는 용어 빈도 / 역 문서 빈도 (TD / IFD) 방법과 유사합니다. 이 빠르고 더러운 Matlab 스크립트를 참조하십시오 .
이 접근법은 적극적으로 연구되었으며 훨씬 더 고급 알고리즘이 있습니다.
VLfeat 웹 사이트에는 caltech 101 데이터 세트를 분류하여이 방법에 대한 고급 고급 데모 가 포함되어 있습니다 . Caltech 자체의 결과 및 소프트웨어도 주목할 만합니다 .