MS Word (doc) ファイルをページごとに読む

MS Word (doc) ファイルをページごとに読む

wvWare (または他のコマンドライン ツールや Python ライブラリ) で doc ファイルをページごとに読み取る方法はありますか? wvWare のマニュアルにも、Abiword、Antiword、catdoc にも何も見つかりません。

答え1

非常に醜いやり方としては、元の文書で ^L を探し、テキストのどこにそれが出現するかを調べることです (docx 以外の Word 文書はほとんどがプレーン テキストです。stringsコンテンツを読み取るためにコマンドを使用することもあります)。

^L は control-L、文字コード 12 で、「フォーム フィード」と呼ばれることもあります。emacs (または制御コードを表示する任意のエディター) で生の Word 文書を表示すると、各ページの最後にこれらのいずれかが表示されます。

関連情報