PDF 파일의 단어 수를 센다


66

PDF 파일의 단어 개수를 어떻게 알 수 있습니까? 총 단어 수를 얻으려는 대부분의 pdf 파일에는 텍스트 레이어가 포함되어 있으므로 OCR이 필요하지 않습니다.

이 작업은 알려진 크기의 과학 논문 (예 : 15000 단어)을 검색하여 이루어졌습니다. 대부분의 모더 논문은 pdf 형식으로 출판됩니다

답변:


90

빠른 답변 :

pdftotext myfile.pdf - | wc -w

긴 답변 :

유닉스에 있다면 다음을 사용할 수 있습니다 pdftotext.

그런 다음 생성 된 파일에서 단어 개수를 수행하십시오. 유닉스에 있다면 다음을 사용할 수 있습니다.

wc -w converted-pdf.txt

단어 수를 얻을 수 있습니다.

또한 frabjous의 주석을 참조하십시오-기본적으로 stdout임시 파일 로 대신 파이핑하여 한 번에 주석을 작성할 수 있습니다 .

pdftotext myfile.pdf - | wc -w

10
그것은 pdftotext: e를 잊지 마세요. 그리고 당신은 하나의 명령을 사용할 수 있습니다 : pdftotext myfile.pdf - | wc -w.
frabjous

1
@frabjous Thanks, 제안으로 답변을 업데이트했습니다!
icyrock.com

pdftotextWindows 플랫폼에서도 사용할 수있는 Xpdf의 일부 라는 점은 주목할 가치가 있습니다. Xpdf 다운로드 페이지는 foolabs.com/xpdf/download.html에 있습니다. wc또한 찾을 수 있지만, 단어 나 LibreOffice Writer와 같은 거의 모든 워드 프로세서를 사용할 수도 있습니다. 그들은 또한 단어를 세어 본다. (
LiberOffice

13

이것은 해결하기 쉽지 않은 어려운 작업입니다. 정확한 결과를 원한다면 PDF 뷰어의 단락별로 텍스트 파일로 복사하여 wc -w도구를 사용하여 확인하십시오 . 이 pdftotext경우 에 사용하지 않는 이유 는 다음과 같습니다. 수학 공식도 결과에 포함되어 "단어"로 간주 될 수 있습니다. 또는에서 얻은 출력을 편집 할 수도 있습니다 pdftotext. 이것이 실패 할 수있는 또 다른 이유는 "4.3.2 Foo Bar"라는 단어가 세 단어로 계산됩니다.

한 가지 방법은 [A-Za-z]에서 문자로 시작하는 단어 만 세는 것입니다. 그래서 내가 평소에하는 것은 2 단계 접근법입니다.

  1. 유니크 단어 목록을 가져오고 내부에 오 탐지가 너무 많은지 확인하십시오.

    pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words

    일부 철자 오류는 단어로 계산되지 않으므로 여기에서 사전을 사용하지 않습니다.

  2. 이 단어 목록을 가져 와서 pdftotext의 출력 내에서 grep하십시오.

    pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l

하나의 라이너 내 에서이 작업을 수행 할 수 있다는 것을 알고 있지만 첫 번째 단계에서 필터 결과를 쉽게 볼 수 없었습니다. 은 -F의 코멘트에 의해 명시된 바와 같이 당신을 도울 수 MOI 아래 (감사).


1
grep -Ff wordsgrep이 "Unmatched [또는 [^"에 대해 불평하기 때문에을 사용해야했습니다 . 매뉴얼 페이지에서 :```-F, --fixed-strings PATTERN을 줄 바꿈으로 구분 된 고정 문자열 목록으로 해석합니다. (-F는 POSIX에 의해 지정됩니다.)```
moi

10

방금 무료 프로그램 Translator 's Abacus를 시험해 보았습니다 . PDF를 포함한 다양한 파일 형식을 끌어다 놓을 수 있으며 각 문서에 대해 인쇄 가능한 단어 수 보고서가있는 브라우저가 나타납니다. 그것은 나를 위해 잘 작동했습니다. (단어 수를 위해 만들어졌으며 435KB에 불과합니다. 즉 "큰 응용 프로그램"이 아닙니다.) Translator 's Abacus는 PDF 1.5 이상에서 작동하지 않습니다.

또는Ctrl + : AAcrobat Reader에서 모든 텍스트를 선택한 다음 Microsoft Word (화면 하단의 상태 표시 줄에 단어 개수가있는)와 같은 프로그램에 복사하여 붙여 넣을 수 있습니다.


(많은?) PDF에서 Crl + A는 전체 문서가 아닌 현재 페이지의 단어 만 선택합니다. 번역기의 주판은 완벽하게 작동합니다!
Junuxx

3
수정, 번역기의 주판은 PDF 1.5 이상에서 작동하지 않습니다.
Junuxx

WinMerge와 함께 Adobe Reader에서 Ctrl + A +1은 Windows에서 잘 작동합니다!
superjos

2

Acrobat Pro를 사용하는 경우이 작업을 수행하는 간단한 방법은 PDF를 Microsoft Word 문서로 내 보낸 다음 Word에서 단어 수를 계산하는 것입니다. 또는 일반 텍스트 파일로 내보내고 선택한 텍스트 편집기에서 단어 개수 유틸리티를 사용할 수 있습니다. 방금 Word 방법을 사용하여 pdf 기사에서 단어 수를 계산했으며 완료하는 데 30 초가 걸렸습니다.

도움이 되었기를 바랍니다.


텍스트로 변환하고 wc -w filename.txt를 수행했습니다. 효과가있었습니다. 감사.
vijayst

1

OCRFeeder 를 설치할 수 있습니다 . 이 선택에서 파일 -> 가져 오기를 PDF-은> 자동으로 검색 및 ODT에 대한 모든 페이지 -> 내보내기 인식 단어를 계산 또는 기타 RTF 기능을 사용하기를 원할 것입니다 준비가 될 것입니다 및 리브레 오피스 라이터 문서를.



0

당신은 내가 빼앗아 간 다음 코드와 어도비 아크로뱃의 콘솔 자바 스크립트를 사용할 수 forums.adobe.com에 데이브 상인의 대답 :

var cnt=0;
for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p);
console.println("There are " + cnt + " words in this file.");

Windows 7 SP1 x64 Ultimate에서 Adobe Acrobat Pro DC 2018.011.20040으로 테스트되었습니다.


JavaScript 콘솔을 활성화하려면

여기에 이미지 설명을 입력하십시오

JavaScript 콘솔 창을 시작하려면

CTRL + J

여기에 이미지 설명을 입력하십시오

참고로, PDF에 해당하는 LaTeX 소스가있는 경우 : LaTeX 문서의 올바른 단어 수 .


-1

사실상 2000 년 이래로 번역가들이 사용하는 표준은 AnyCount Word Count Tool 입니다. PDF 및 37 개의 다른 형식으로 단어 수를 계산합니다.


블라디미르, 단어 계산 및 번역 시장에서 널리 사용되는 타사 참조 (책, 논문, 저널, 시장 리뷰의 언급)가 있습니까? books.google.com/…
osgx

-3

Ctrl+ Shift+ F고급 검색 단어를 입력하면 문서에 몇 번이나 들어 있는지 계산됩니다. 로켓 과학이 아닙니다.


9
나는 당신이 그 질문을 오해했다고 생각합니다 ... '단어 수'는 일반적으로 특정 단어의 수보다는 문서의 총 단어 수를 의미합니다 ... 또한, 당신이 있다면 더 좋을 것이라고 생각합니다 어떤 프로그램을 말하고 있는지 지정하십시오-모든 PDF 리더가 동일한 기능을 갖거나 동일한 키보드 단축키를 사용하는 것은 아닙니다.
evilsoup

OP 답변에 답변하지 않았을 수 있지만 게시물이 확실히 도움이되었습니다. 감사. : D
mahela007
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.