DCT를 통한 텍스처 분류


12

이산 코사인 변환의 특징을 사용하여 이미지의 질감을 분류하는 것이 얼마나 실용적입니까? 인터넷 검색 "텍스처 분류 dct" 는 신경망을 사용하여이 주제에 대한 단일 학술 논문 만 찾습니다 .

내 응용 프로그램의 경우 전체 이미지가 일관된 질감 (예 : 담요, 나무 껍질, 잔디밭 등)의 근접 촬영 된 레이블이 붙은 이미지 모음이 있습니다.

이전 질문 에 대한 답변에서 영감을 얻어 다음 접근법을 고려하고있었습니다.

  1. 각 이미지를 NxN 픽셀 블록으로 분할
  2. 각 블록의 DCT를 취하십시오
  3. 각 DCT를 1xM 배열로 병합하여 K-Means 클러스터링 알고리즘에 공급하고 각 DCT에 대한 클러스터 레이블을 얻습니다.
  4. # 3에서 이미지 당 각 레이블을 계산하여 각 이미지에 대한 클러스터링 레이블의 히스토그램을 계산합니다.
  5. [(히스토그램, 이미지 레이블)] 집합을 공급하여 SVM 분류기를 훈련시킵니다.

이것은 얼마나 잘 작동합니까? SIFT / SURF 알고리즘을 통해 추출 된 기능을 사용하여 유사한 시스템을 구현했지만 약 60 %의 정확도 만 얻을 수있었습니다.

다른 방법으로 DCT를 사용하여 텍스처를 분류 할 수 있습니까?


1
이것은 ml-class.org에 대한 신경망 할당과 거의 비슷합니다.
Ivo Flipse

2
@IvoFlipse : ml-class.org의 경우 +1 그러나이 질문은 기능에 관한 것입니다. 결국, 기능이 문제에 적합하지 않은 경우 분류 알고리즘의 성능이 중요하지 않습니다.
Dima

Gabor 필터 뱅크는 텍스트 분류에 매우 유용 할 수 있습니다.
mrgloom

답변:


6

지금까지 제안한 내용은 합리적인 접근 방식과 같습니다. 그러나 SIFT를 시도한 것처럼 시도하기 전까지 얼마나 잘 작동하는지 알 수 없다고 생각합니다.

그래도 질문이 있습니다. 왜 자신을 DCT로 제한합니까? 텍스처 분류에 사용 된 표현은 많이 있습니다. 동시 발생 행렬, 로컬 이진 패턴 등입니다. 텍스처 분류에 DCT를 사용하는 것에 대한 논문이 하나만 발견되었다는 사실은 이것이 가장 일반적으로 사용되는 기능이 아님을 시사합니다. 이 문제에 대해. 사람들이 사용한 다른 기능과 그 효과를 확인하려면 문헌 검색을 넓히는 것이 좋습니다.


4

이미지를 NxN 블록으로 분할하지 않고 대신 슬라이딩 윈도우를 사용하는 경우 이미지의 각 지점에 중심을 둔 블록에 대해 DCT를 계산하면 본질적으로 웨이블릿 접근 방식이 사용됩니다. 이미지를 블록으로 분할하는 것은 슬라이딩 윈도우 및 다운 샘플링 이미지를 사용하는 것과 같습니다. 따라서 본질적으로 감소 된 형태의 웨이블릿 텍스처 세분화를 사용하고 있습니다. DCT 대신 Gabor wavelet이 일반적으로 사용되는 이유는 더 많은 매개 변수 (+ 스케일 및 + 방향)와 부드러운 감쇠 (창의 날카로운 모서리 대신)입니다.


3

DCT 기반 텍스처 분할 / 분류 (또는 기타 활동)를 수행하려는 가장 큰 매력 중 하나는 대부분의 JPEG 이미지와 MPEG 비디오가 이미 DCT에 있다는 사실입니다. 반면에 Gabor 기반 접근 방식은 계산 비용이 많이 드는 것으로 일반적으로 믿어집니다.

DCT 계수 MID 대 고주파수 및 / 또는 대각 주파수는 픽셀 영역의 로컬 변화를 잘 표현합니다.

그러나이 모든 것이 소리만큼 좋지 않을 수 있습니다. 우선, 대부분의 표준에서 DCT 블록은 8x8 크기입니다. 따라서 장면에 8 픽셀 포인트의 주기성을 갖는 패턴이있는 경우 주기성에 변화가있을 때이 공진 효과는 인접한 블록의 해당 계수의 유사성 측면에서 볼 수 있습니다.

DCT와 Gabor의 순수한 블록 간의 중요한 차이점을 이해한다는 것은 Gabor가 스케일을 가지고 있다는 것입니다. 따라서 텍스처의 "주기"또는 "정도 / 거칠기"를 변경하면 Gabor는 DCT의 고정 평가 @ 8x8 블록 크기가 적합하지 않은 곳을 발견합니다.

그러나 실현해야 할 것은 그러한 스케일 현상 을 평가하기 위해 여러 블록을 함께 보면서 그러한 패턴을 만드는 것 입니다. 예를 들어 기본 접근 방식으로 16x16 블록 또는 32x32 크기 블록이 있는지 물어보십시오. 계수의 결과 패턴은 무엇입니까? 각 위치의 계수는 악용과 관계가 있으며 실제 규모의 텍스처를 발견 할 수 있습니다.

이것은 실제로 추구해야 할 좋은 연구 주제입니다.

참고 : MPEG7 (MPEG를 만든위원회와 매우 유사한)조차도 DCT 기반이 아니라 텍스처에 대한 Gabor 기반 기능을 제안합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.