Как найти файлы PDF и EPUB, содержащие несколько ключевых слов на одной странице?

Как найти файлы PDF и EPUB, содержащие несколько ключевых слов на одной странице?

У меня есть большой каталог, в котором много файлов pdf и epub электронных книг. Я хочу искать файлы, которые содержат несколько ключевых слов на одной странице.

решение1

PDF

Выберите любую утилиту, которая может извлекать текст с одной страницы (например, pdftext), пройдитесь по всем страницам и извлеките текст, примените регулярное выражение к извлеченному тексту.

Или используйте язык программирования по вашему выбору, PDF-библиотеку по вашему выбору и напишите программу для нее.

EPUB

Epub — это просто zip-файл. Распакуйте его, и вы получите множество html-файлов. Вы можете проверить эти файлы на наличие регулярных выражений или использовать какой-нибудь инструмент, чтобы сначала преобразовать их в обычный текст, игнорируя форматирование.

Обратите внимание, что файл epub по сутине имеет страниц: Пагинация будет выполнена устройством рендеринга и будет потенциально разной для каждого устройства рендеринга. Поэтому «поиск нескольких ключевых слов на одной странице» должен быть как-то изменен, чтобы учесть это, возможно, используя структуру html.

Связанный контент