wvWare(또는 다른 명령줄 도구나 Python 라이브러리)를 사용하여 문서 파일을 페이지별로 읽을 수 있는 방법이 있나요? wvWare 매뉴얼이나 Abiword, Antiword 또는 catdoc에서는 아무것도 찾을 수 없는 것 같습니다.
답변1
미친 듯이 추악한 방법은 원본 문서에서 ^L을 찾아서 텍스트의 어디에서 발생하는지 파악하는 것입니다(docx가 아닌 Word 문서는 대부분 일반 텍스트입니다. 때로는 명령을 사용하여 strings
내용을 읽습니다).
^L은 control-L, 문자 코드 12이며 "폼 피드"라고도 합니다. Emacs(또는 제어 코드를 표시하는 편집기)에서 원시 Word 문서를 보면 각 페이지 끝에 이러한 항목 중 하나가 표시됩니다.