Leia um arquivo MS Word (doc) página por página

Leia um arquivo MS Word (doc) página por página

Existe alguma maneira de fazer com que o wvWare (ou possível alguma outra ferramenta de linha de comando ou biblioteca Python) leia um arquivo doc página por página? Não consigo encontrar nada no manual do wvWare, nem no Abiword, Antiword ou catdoc.

Responder1

Uma maneira incrivelmente feia de fazer isso seria procurar ^L no documento original e descobrir onde eles ocorrem no texto (documentos do Word não docx são em sua maioria texto simples: às vezes uso o stringscomando para ler o conteúdo).

^L é control-L, código de caractere 12 e às vezes chamado de "feed de formulário". Se você olhar um documento Word bruto no emacs (ou qualquer editor que mostre códigos de controle), verá um destes no final de cada página.

informação relacionada