%20%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%82%92%E3%83%9A%E3%83%BC%E3%82%B8%E3%81%94%E3%81%A8%E3%81%AB%E8%AA%AD%E3%82%80.png)
wvWare (または他のコマンドライン ツールや Python ライブラリ) で doc ファイルをページごとに読み取る方法はありますか? wvWare のマニュアルにも、Abiword、Antiword、catdoc にも何も見つかりません。
答え1
非常に醜いやり方としては、元の文書で ^L を探し、テキストのどこにそれが出現するかを調べることです (docx 以外の Word 文書はほとんどがプレーン テキストです。strings
コンテンツを読み取るためにコマンドを使用することもあります)。
^L は control-L、文字コード 12 で、「フォーム フィード」と呼ばれることもあります。emacs (または制御コードを表示する任意のエディター) で生の Word 文書を表示すると、各ページの最後にこれらのいずれかが表示されます。