У меня есть большой каталог, в котором много файлов pdf и epub электронных книг. Я хочу искать файлы, которые содержат несколько ключевых слов на одной странице.
решение1
Выберите любую утилиту, которая может извлекать текст с одной страницы (например, pdftext
), пройдитесь по всем страницам и извлеките текст, примените регулярное выражение к извлеченному тексту.
Или используйте язык программирования по вашему выбору, PDF-библиотеку по вашему выбору и напишите программу для нее.
EPUB
Epub — это просто zip-файл. Распакуйте его, и вы получите множество html-файлов. Вы можете проверить эти файлы на наличие регулярных выражений или использовать какой-нибудь инструмент, чтобы сначала преобразовать их в обычный текст, игнорируя форматирование.
Обратите внимание, что файл epub по сутине имеет страниц: Пагинация будет выполнена устройством рендеринга и будет потенциально разной для каждого устройства рендеринга. Поэтому «поиск нескольких ключевых слов на одной странице» должен быть как-то изменен, чтобы учесть это, возможно, используя структуру html.