답변:
빠른 답변 :
pdftotext myfile.pdf - | wc -w
긴 답변 :
유닉스에 있다면 다음을 사용할 수 있습니다 pdftotext
.
그런 다음 생성 된 파일에서 단어 개수를 수행하십시오. 유닉스에 있다면 다음을 사용할 수 있습니다.
wc -w converted-pdf.txt
단어 수를 얻을 수 있습니다.
또한 frabjous의 주석을 참조하십시오-기본적으로 stdout
임시 파일 로 대신 파이핑하여 한 번에 주석을 작성할 수 있습니다 .
pdftotext myfile.pdf - | wc -w
pdftotext
Windows 플랫폼에서도 사용할 수있는 Xpdf의 일부 라는 점은 주목할 가치가 있습니다. Xpdf 다운로드 페이지는 foolabs.com/xpdf/download.html에 있습니다. wc
또한 찾을 수 있지만, 단어 나 LibreOffice Writer와 같은 거의 모든 워드 프로세서를 사용할 수도 있습니다. 그들은 또한 단어를 세어 본다. (
이것은 해결하기 쉽지 않은 어려운 작업입니다. 정확한 결과를 원한다면 PDF 뷰어의 단락별로 텍스트 파일로 복사하여 wc -w
도구를 사용하여 확인하십시오 . 이 pdftotext
경우 에 사용하지 않는 이유 는 다음과 같습니다. 수학 공식도 결과에 포함되어 "단어"로 간주 될 수 있습니다. 또는에서 얻은 출력을 편집 할 수도 있습니다 pdftotext
. 이것이 실패 할 수있는 또 다른 이유는 "4.3.2 Foo Bar"라는 단어가 세 단어로 계산됩니다.
한 가지 방법은 [A-Za-z]에서 문자로 시작하는 단어 만 세는 것입니다. 그래서 내가 평소에하는 것은 2 단계 접근법입니다.
유니크 단어 목록을 가져오고 내부에 오 탐지가 너무 많은지 확인하십시오.
pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words
일부 철자 오류는 단어로 계산되지 않으므로 여기에서 사전을 사용하지 않습니다.
이 단어 목록을 가져 와서 pdftotext의 출력 내에서 grep하십시오.
pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l
하나의 라이너 내 에서이 작업을 수행 할 수 있다는 것을 알고 있지만 첫 번째 단계에서 필터 결과를 쉽게 볼 수 없었습니다. 은 -F
의 코멘트에 의해 명시된 바와 같이 당신을 도울 수 MOI 아래 (감사).
grep -Ff words
grep이 "Unmatched [또는 [^"에 대해 불평하기 때문에을 사용해야했습니다 . 매뉴얼 페이지에서 :```-F, --fixed-strings PATTERN을 줄 바꿈으로 구분 된 고정 문자열 목록으로 해석합니다. (-F는 POSIX에 의해 지정됩니다.)```
방금 무료 프로그램 Translator 's Abacus를 시험해 보았습니다 . PDF를 포함한 다양한 파일 형식을 끌어다 놓을 수 있으며 각 문서에 대해 인쇄 가능한 단어 수 보고서가있는 브라우저가 나타납니다. 그것은 나를 위해 잘 작동했습니다. (단어 수를 위해 만들어졌으며 435KB에 불과합니다. 즉 "큰 응용 프로그램"이 아닙니다.) Translator 's Abacus는 PDF 1.5 이상에서 작동하지 않습니다.
또는Ctrl + : AAcrobat Reader에서 모든 텍스트를 선택한 다음 Microsoft Word (화면 하단의 상태 표시 줄에 단어 개수가있는)와 같은 프로그램에 복사하여 붙여 넣을 수 있습니다.
Acrobat Pro를 사용하는 경우이 작업을 수행하는 간단한 방법은 PDF를 Microsoft Word 문서로 내 보낸 다음 Word에서 단어 수를 계산하는 것입니다. 또는 일반 텍스트 파일로 내보내고 선택한 텍스트 편집기에서 단어 개수 유틸리티를 사용할 수 있습니다. 방금 Word 방법을 사용하여 pdf 기사에서 단어 수를 계산했으며 완료하는 데 30 초가 걸렸습니다.
도움이 되었기를 바랍니다.
abracadabra 도구에 포함 된 단어 카운터가 편리 하다는 것을 알았습니다 . 설치는 다소 기이합니다.
당신은 내가 빼앗아 간 다음 코드와 어도비 아크로뱃의 콘솔 자바 스크립트를 사용할 수 forums.adobe.com에 데이브 상인의 대답 :
var cnt=0;
for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p);
console.println("There are " + cnt + " words in this file.");
Windows 7 SP1 x64 Ultimate에서 Adobe Acrobat Pro DC 2018.011.20040으로 테스트되었습니다.
JavaScript 콘솔을 활성화하려면
JavaScript 콘솔 창을 시작하려면
CTRL + J
참고로, PDF에 해당하는 LaTeX 소스가있는 경우 : LaTeX 문서의 올바른 단어 수 .
사실상 2000 년 이래로 번역가들이 사용하는 표준은 AnyCount Word Count Tool 입니다. PDF 및 37 개의 다른 형식으로 단어 수를 계산합니다.
Ctrl+ Shift+ F고급 검색 단어를 입력하면 문서에 몇 번이나 들어 있는지 계산됩니다. 로켓 과학이 아닙니다.
pdftotext
: e를 잊지 마세요. 그리고 당신은 하나의 명령을 사용할 수 있습니다 :pdftotext myfile.pdf - | wc -w
.