Читать файл MS Word (doc) страница за страницей

Читать файл MS Word (doc) страница за страницей

Есть ли способ заставить wvWare (или, возможно, какой-то другой инструмент командной строки или библиотеку Python) читать doc-файл постранично? Я не могу найти ничего в руководстве wvWare, ни в Abiword, ни в Antiword, ни в catdoc.

решение1

Безумно уродливый способ сделать это — искать ^L в исходном документе и выяснять, где в тексте они встречаются (документы Word, отличные от docx, в основном представляют собой обычный текст: я иногда использую эту stringsкоманду, чтобы прочитать содержимое).

^L — это control-L, код символа 12, иногда называемый "переводом страницы". Если вы посмотрите на необработанный документ Word в emacs (или любом редакторе, который показывает коды управления), вы увидите один из них в конце каждой страницы.

Связанный контент