Есть ли способ заставить wvWare (или, возможно, какой-то другой инструмент командной строки или библиотеку Python) читать doc-файл постранично? Я не могу найти ничего в руководстве wvWare, ни в Abiword, ни в Antiword, ни в catdoc.
решение1
Безумно уродливый способ сделать это — искать ^L в исходном документе и выяснять, где в тексте они встречаются (документы Word, отличные от docx, в основном представляют собой обычный текст: я иногда использую эту strings
команду, чтобы прочитать содержимое).
^L — это control-L, код символа 12, иногда называемый "переводом страницы". Если вы посмотрите на необработанный документ Word в emacs (или любом редакторе, который показывает коды управления), вы увидите один из них в конце каждой страницы.