同じページに複数のキーワードが含まれる PDF ファイルと EPUB ファイルを見つけるにはどうすればよいですか?

同じページに複数のキーワードが含まれる PDF ファイルと EPUB ファイルを見つけるにはどうすればよいですか?

たくさんの PDF および EPUB 電子書籍ファイルを含む大きなディレクトリがあります。同じページに複数のキーワードを含むファイルを検索したいと考えています。

答え1

PDF

単一のページからテキストを抽出できるユーティリティ (例pdftext) を選択し、すべてのページを反復処理してテキストを抽出し、抽出したテキストに正規表現を適用します。

または、お好みのプログラミング言語、お好みの PDF ライブラリを使用して、プログラムを作成します。

EPUB

EPUB は単なる ZIP ファイルです。これを解凍すると、多数の HTML ファイルが生成されます。これらのファイルをスキャンして正規表現を探すか、何らかのツールを使用して、書式を無視してプレーン テキストに変換します。

EPUBファイルは基本的にページがありません: ページネーションはレンダリング デバイスによって行われ、レンダリング デバイスごとに異なる可能性があります。したがって、これを考慮して、「同じページで複数のキーワードを検索する」という操作を何らかの方法で変更する必要があります (おそらく HTML 構造を使用する)。

関連情報