어떻게 OCR 도구 pdfsandwich와 왜곡 된 결과를 피하기 위해?


0

일반적으로 OCR 도구를 적용하기 전에 스캔 한 페이지를 기울여야합니다. 여기에서 필자의 입력은 똑 바른 스캔 페이지이며 OCR 출력은 시계 방향 또는 반 시계 방향으로 왜곡되는 경우가 있습니다. 260 페이지의 영어 책을 사용하는 경우 14 페이지가 발생합니다.

예: input.pdf : input.pdf

output.pdf output.pdf

명령:

convert -density 300 -quality 100 input.pdf -level 0%,100%,4.0 -black-threshold 75% convert.pdf && pdfsandwich -noimage -coo "-normalize  -density 300 -black-threshold 75%" convert.pdf -o output.pdf

이 출력 왜곡을 피하려면 어떻게해야합니까?

또는 OCR을 잃지 않고 어떻게 출력을 왜곡 보정 할 수 있습니까? 내가 찾은 모든 방법과 도구는 먼저 OCR을 잃어 버리는 이미지 형식으로 변환 한 다음 여기서 쓸모가 없습니다.

답변:


0

감사합니다. 레미 F 이 LaTeX 파일을 사용하여 output.pdf를 가져 와서이 솔루션을 작성할 수 있습니다.

\documentclass{article} 
\usepackage[paperwidth=6.38in,paperheight=10.32in,bindingoffset=0in,top=-0.39in,bottom=0in,left=-0.29in,right=0in,footskip=0in]{geometry}
\usepackage{graphicx}

\begin{document}

\pagestyle{empty}
\begin{figure}[t]
    \includegraphics[scale=0.233,angle=-4]{output.pdf} 
\end{figure}

\end{document}

그때:

pdflatex output_tex.tex

output_tex.pdf를 만듭니다. enter image description here

프로세스를 자동화 할 수 있도록 자동으로 크기와 마진을 조정할 수 있으면 좋을 것입니다.

편집 : 나는 기울기 각도를 자동으로 얻기 위해 몇 가지 진전을 보았다.

angle=`convert output.pdf -deskew 40 -format "%[deskew:angle]" info:`

내가 자동화하면 다음과 같이된다.

#/bin/bash
name=${1%.*}
ext=${1##*.}
convert -density 300 -quality 100 ${name}.$ext -level 0%,100%,4.0 -black-threshold 75%  ${name}_convert.$ext
pdfsandwich -noimage -coo "-normalize  -density 300 -black-threshold 75%" ${name}_convert.$ext -o ${name}_ocr.$ext
angle=`convert ${name}_ocr.$ext -deskew 40 -format "%[deskew:angle]" info:`
angle=`echo "${angle}*-1" | bc`
echo "  angle = $angle"
sed -e "s/ANGLE/$angle/" -e "s/FILE/${name}_ocr.$ext/" /var/ocr/pdfrotate.tex > ${name}_ocr_straight.tex
pdflatex ${name}_ocr_straight.tex
rm ${name}_convert.$ext ${name}_ocr_straight.tex ${name}_ocr_straight.aux ${name}_ocr_straight.log

/ var / ocr / pdf로 회전 문자 :

\documentclass{article}
\usepackage[paperwidth=6.38in,paperheight=10.32in,bindingoffset=0in,top=-0.39in,bottom=0in,left=-0.29in,right=0in,footskip=0in]{geometry}
    \usepackage{graphicx}
    \begin{document}
    \pagestyle{empty}
    \begin{figure}[t]
        \includegraphics[scale=0.233,angle=ANGLE]{FILE}
    \end{figure}
    \end{document}

눈금은 올바르게 보이며 문서에 따라 다릅니다. 하지만 유감스럽게도 필자의 평가판 페이지에 맞춰진 지형 매개 변수는 다른 페이지에는 적합하지 않습니다. 나는 그들을 자동화하는 방법을 모른다. 아마도 원본 페이지와 결과 페이지를 bluring하고 매개 변수로 top 및 left를 사용하여 상관 관계 최적화를 수행하는 것이 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.