wvWare (または他のコマンドライン ツールや Python ライブラリ) で doc ファイルをページごとに読み取る方法はありますか? wvWare のマニュアルにも、Abiword、Antiword、catdoc にも何も見つかりません。
答え1
非常に醜いやり方としては、元の文書で ^L を探し、テキストのどこにそれが出現するかを調べることです (docx 以外の Word 文書はほとんどがプレーン テキストです。strings
コンテンツを読み取るためにコマンドを使用することもあります)。
^L は control-L、文字コード 12 で、「フォーム フィード」と呼ばれることもあります。emacs (または制御コードを表示する任意のエディター) で生の Word 文書を表示すると、各ページの最後にこれらのいずれかが表示されます。