%20%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0%20%D0%B7%D0%B0%20%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B5%D0%B9.png)
Есть ли способ заставить wvWare (или, возможно, какой-то другой инструмент командной строки или библиотеку Python) читать doc-файл постранично? Я не могу найти ничего в руководстве wvWare, ни в Abiword, ни в Antiword, ни в catdoc.
решение1
Безумно уродливый способ сделать это — искать ^L в исходном документе и выяснять, где в тексте они встречаются (документы Word, отличные от docx, в основном представляют собой обычный текст: я иногда использую эту strings
команду, чтобы прочитать содержимое).
^L — это control-L, код символа 12, иногда называемый "переводом страницы". Если вы посмотрите на необработанный документ Word в emacs (или любом редакторе, который показывает коды управления), вы увидите один из них в конце каждой страницы.