Gibt es eine Möglichkeit, wvWare (oder möglicherweise ein anderes Befehlszeilentool oder eine Python-Bibliothek) dazu zu bringen, eine Doc-Datei seitenweise zu lesen? Ich kann im Handbuch von wvWare nichts dazu finden, weder in Abiword, Antiword noch in catdoc.
Antwort1
Eine wahnsinnig hässliche Möglichkeit wäre, im Originaldokument nach ^L zu suchen und herauszufinden, wo im Text sie vorkommen (nicht-docx-Word-Dokumente bestehen größtenteils aus reinem Text: Ich verwende den strings
Befehl manchmal, um den Inhalt zu lesen).
^L ist Strg-L, Zeichencode 12 und wird manchmal als „Formularvorschub“ bezeichnet. Wenn Sie sich ein unbearbeitetes Word-Dokument in Emacs (oder einem anderen Editor, der Steuercodes anzeigt) ansehen, sehen Sie am Ende jeder Seite einen dieser Codes.