Existe alguma maneira de fazer com que o wvWare (ou possível alguma outra ferramenta de linha de comando ou biblioteca Python) leia um arquivo doc página por página? Não consigo encontrar nada no manual do wvWare, nem no Abiword, Antiword ou catdoc.
Responder1
Uma maneira incrivelmente feia de fazer isso seria procurar ^L no documento original e descobrir onde eles ocorrem no texto (documentos do Word não docx são em sua maioria texto simples: às vezes uso o strings
comando para ler o conteúdo).
^L é control-L, código de caractere 12 e às vezes chamado de "feed de formulário". Se você olhar um documento Word bruto no emacs (ou qualquer editor que mostre códigos de controle), verá um destes no final de cada página.