이미지 분류를위한 사각형이 아닌 이미지


9

넓은 이미지의 데이터 세트가 있습니다 : 1760x128. 튜토리얼과 책을 읽었지만 대부분은 입력 이미지가 정사각형이어야하며 그렇지 않은 경우 이미 훈련 된 (정사각형 이미지) cnn에서 훈련을 받기 위해 정사각형으로 변환됩니다. 정사각형이 아닌 이미지에 대해 cnn을 훈련시키는 방법이 있습니까, 아니면 다른 옵션을 패딩으로 찾아야합니까?

답변:


4

분류기에 따라 문제를 해결하는 방법에는 여러 가지가 있습니다. 슬라이딩 윈도우는 내가 가장 친숙한 방법으로 신경망 방법에 사용됩니다. 이 방법에는 작은 하위 이미지를 가져 와서 약간의 겹침으로 위아래로 이동하는 것이 포함됩니다. 일부 문제에는 최적의 시프트 매개 변수 및 다중 스케일 문제 찾기가 포함됩니다.

최종 탐지는 일반적으로 분류자가 각 하위 이미지가 해당 클래스에 속하는지 얼마나 확신하는지에 따라 결정됩니다 (예 : 과반수 투표, 총 가능성 또는 결정 경계와의 총 거리). 아래에 일부 자료를 나열했습니다. 첫 번째는 HOG 분류기 방법에 대한 것이지만 개념은 동일합니다.

  1. 물체 감지 슬라이딩 윈도우
  2. 객체 범주 감지 : 슬라이딩 윈도우
  3. 컨볼 루션 네트워크를 이용한 과적 통합 인식, 현지화 및 탐지

2

CNN을 사용하는 경우 아무런 문제가 발생하지 않습니다. 나는 얼굴을 인식하기 위해 CNN을 만들었고, 얼굴의 높이는 보통 70 % 정도이기 때문에 80x100 픽셀의 훈련 이미지를 사용했습니다 (머리가 비스듬한 경우 약간의 추가 너비). 그래도 필터는 정사각형이어야합니다.

모든 변경 사항은 이제 크기를 알려주는 하나의 값 대신 활성화 / 풀링 맵의 너비와 높이를 추적해야한다는 것입니다. 예를 들어-

80 x 100의 입력 이미지 Apply 5 x 5 회선 필터는 76 x 96에서 활성화 맵을 제공합니다. 2 x 2 풀링 적용은 38 x 48에서 풀링 된 활성화 맵을 제공합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.