MS Word (doc) ファイルをページごとに読む

Question

非常に醜いやり方としては、元の文書で ^L を探し、テキストのどこにそれが出現するかを調べることです (docx 以外の Word 文書はほとんどがプレーンテキストです。stringsコンテンツを読み取るためにコマンドを使用することもあります)。

^L は control-L、文字コード 12 で、「フォームフィード」と呼ばれることもあります。emacs (または制御コードを表示する任意のエディター) で生の Word 文書を表示すると、各ページの最後にこれらのいずれかが表示されます。

Answer 1

非常に醜いやり方としては、元の文書で ^L を探し、テキストのどこにそれが出現するかを調べることです (docx 以外の Word 文書はほとんどがプレーンテキストです。stringsコンテンツを読み取るためにコマンドを使用することもあります)。

^L は control-L、文字コード 12 で、「フォームフィード」と呼ばれることもあります。emacs (または制御コードを表示する任意のエディター) で生の Word 文書を表示すると、各ページの最後にこれらのいずれかが表示されます。

関連情報