텍스트 및 파일 유틸리티와 함께 사용하기 위해 MS Word 내용을 일반 텍스트로 내보내고 있습니다. MS 소프트웨어에서 줄 번호 매기기 기능을 사용하도록 설정 한 제약 조건이 있으며 최종 출력에서 줄 번호에 대한 참조 는 해당 번호와 일치 해야합니다 . "번호 줄"을 입력하십시오 :
( 푸, EA )
분명히 Word의 경우 , 이런 종류의 번호 매기기는 줄 바꿈 에서 줄을 끊지 않고 오른쪽 여백 (또는 무언가) 뒤에 줄을 끊습니다 . 와 같은 스크립트 docx2txt
는 기본적으로 이것을 설명하지 않으며 줄 바꿈에서 줄을 끊는 것처럼 보입니다. 따라서 grep -n
번호 매기기와 함께 사용하면 위의 그림과 같이 라인이 소스 라인 번호 기능과 일치하지 않습니다. 문서에서 내가이 경우에 필요한 방식으로 파일을 변환하기 위해 Perl 스크립트를 편집하는 방법이 명확하지 않습니다.
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
나는 대체 \n
를 시도 \r\n
했지만 그것이 효과가없는 것 같습니다. 그래서 나는 다음 설정 ( v.2013,64pc에서 일반 텍스트 로 저장)을 사용하여 Word 에서 직접 문서를 내보내는 것에 의지했습니다 .
- 유니 코드 (UTF-8)
- (CR / LF)를 사용하여 줄 바꿈 + 끝 줄 삽입
- 문자 대체 허용
이제 정말로 내가 때 사용.txt
파일을 소스 번호 기능과 라인 번호 사이에 완벽하게 일치가 grep -n
출력.
- 특정 구성이 있나요 / I 알아야 처리
docx2txt
또는 내 변환 할 수있는 것이다 유사한 명령 줄 유틸리티 .DOCX , 줄 바꿈을 유지하면서 의지하지 않고 일반 텍스트 파일을 워드 나처럼? - 줄 바꿈 및 서식과 관련하여 MS Word 문서 (강조 문자를 포함 할 수 있음)를 파일 / 텍스트 유틸리티와 함께 사용하기 위해 일반 텍스트로 내보내는 가장 좋은 방법 은 무엇입니까? CR / LF 삽입과 같이 내보내기 위해 선택한 설정에 부정적인 영향이 있습니까?
견본
제안한대로 샘플을 제공합니다. 이 RAR 아카이브 에서 간단한 단락이 있는 .docx 파일과 위에서 언급 한 옵션이있는 Word를 사용하여 내 보낸 .txt 파일을 묶었습니다 . 후자는 docx2txt
소스 파일에서 기본 실행과 비교할 수 있습니다 .