책장 이미지에서 책 제목 및 저자의 슬라이스 및 인식


13

나는 내 자신의 학습 목적으로 다음과 같은 책장 이미지가 주어지면 책을 나열하는 알고리즘의 구현을 개발하려고 노력하고 있습니다.

여기에 이미지 설명을 입력하십시오

첫 번째 단계는 이미지를 개별 책으로 자르는 것입니다.

Mathematica 에서 내 알고리즘 은 다음과 같습니다.

    img = ColorConvert[Import["http://i.stack.imgur.com/IaLQk.jpg"], "GrayScale"]
  • 기본 가장자리 감지 및
  • 텍스트를 제거하고 긴 줄을 유지하십시오

    edge = DeleteSmallComponents[EdgeDetect[img, 3],Last[ImageDimensions[img]]/5]
    
  • 그런 다음 원치 않는 수평선을 제거하십시오

    lines = Sort[ImageLines[img5] /. {{0., _}, {_, _}} -> Sequence[]]
    Show[img, Graphics[{Thick, Orange, Line /@ lines}]]
    

그러나 결과는 크지 않습니다.

여기에 이미지 설명을 입력하십시오

내 질문은 :

  1. 더 나은 결과를 얻기 위해 어떻게 이것을 개선 할 수 있습니까?
  2. 더 똑똑한 방법이 있습니까?
  3. (나중에) OCR 단계에서 정확도를 높이려면 이미지를 어떻게 더 처리해야합니까?
  4. 색상 정보를 사용하여 분할을 개선하는 방법은 무엇입니까?

1
@OrenPinsky 나는 세그먼테이션에 대한 문제를 보지 못했습니다. "가짜 책 영역"의 수가 많지 않습니다 (제공 한 샘플에서 하나만 볼 수 있음). 다음 단계는, 그 책을 구별하기에 충분해야한다 (영역은 텍스트가 없습니다)이 아닌 책 (텍스트)
페넬로페

3
@OrenPinsky, 나는 당신의 결과가 아주 훌륭하다고 말할 것입니다. :)
Dima

답변:



4

선을 감지하기 위해 어떤 방법을 사용하고 있습니까? LSD로 실험 해 보셨습니까 ?

LSD를 사용한 빠른 테스트 결과는 다음과 같습니다.

0.1heightpic1

두 번째 이미지는 각도 제한이 동일하지만 세그먼트의 길이는 무시한 결과입니다. pic2

이 부분을 조금 사용 해보고 가장 좋은 선분을 선택하고 선으로 확장하고 게시 한 것보다 약간 더 나은 결과를 얻을 수 있습니다.


6
"LSD로 실험 해 보셨습니까?" 좋은 시도, FBI;)
Lorem Ipsum

Mathematica의 ImageLine은 Hough 변환을 기반으로하며, 이제는 피드백이 대부분 잘 작동한다고 확신합니다. 그래도 그레이 스케일로 변환 할 때 관련 데이터를 잃어 버리고이 응용 프로그램에서 컬러 데이터가 (직관적으로) 강력한 에지 디텍터를 도울 수 있다는 사실이 저를 귀찮게합니다. LSD를 시도하고 어떻게 진행되는지 살펴보십시오! (그것은 Steve Jobs를 위해 놀랍게 잘 일했다! ;-)
Oren Pinsky

친구가 문 감지에 LSD를 사용하는 것을 보았습니다. 결국 결과에 만족했다고 생각합니다. 나는 그것이 가치가 있다고 말할 것이다 : D
페넬로페

1

가장자리 감지를 위해 선택한 방법을 사용하여 개별 색상 도메인에서 가장자리 감지를 시도한 다음 병합 할 수 있습니다.

컬러 이미지에서 직접 가장자리 감지와 비교할 때 더 나은 결과를 얻을 수 있습니다.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.