¿Hay alguna forma de hacer que wvWare (o posiblemente alguna otra herramienta de línea de comandos o biblioteca de Python) lea un archivo doc página por página? Parece que no puedo encontrar nada en el manual de wvWare, ni en Abiword, Antiword o catdoc.
Respuesta1
Una forma increíblemente fea de hacerlo sería buscar ^L en el documento original y averiguar en qué parte del texto aparecen (los documentos de Word que no son docx son en su mayoría texto sin formato: a veces uso el strings
comando para leer el contenido).
^L es control-L, código de carácter 12 y, a veces, se denomina "avance de formulario". Si observa un documento de Word sin formato en emacs (o cualquier editor que muestre códigos de control), verá uno de estos al final de cada página.