たくさんの PDF および EPUB 電子書籍ファイルを含む大きなディレクトリがあります。同じページに複数のキーワードを含むファイルを検索したいと考えています。
答え1
単一のページからテキストを抽出できるユーティリティ (例pdftext
) を選択し、すべてのページを反復処理してテキストを抽出し、抽出したテキストに正規表現を適用します。
または、お好みのプログラミング言語、お好みの PDF ライブラリを使用して、プログラムを作成します。
EPUB
EPUB は単なる ZIP ファイルです。これを解凍すると、多数の HTML ファイルが生成されます。これらのファイルをスキャンして正規表現を探すか、何らかのツールを使用して、書式を無視してプレーン テキストに変換します。
EPUBファイルは基本的にページがありません: ページネーションはレンダリング デバイスによって行われ、レンダリング デバイスごとに異なる可能性があります。したがって、これを考慮して、「同じページで複数のキーワードを検索する」という操作を何らかの方法で変更する必要があります (おそらく HTML 構造を使用する)。