Tengo un directorio grande que tiene muchos archivos de libros electrónicos pdf y epub. Quiero buscar archivos que contengan varias palabras clave en la misma página.
Respuesta1
Elija cualquier utilidad que pueda extraer texto de una sola página (por ejemplo pdftext
), iterar sobre todas las páginas y extraer texto, aplicar expresiones regulares al texto extraído.
O utilice un lenguaje de programación de su elección, una biblioteca PDF de su elección y escriba un programa para ella.
EPUB
Un epub es solo un archivo zip. Descomprímelo y obtendrás muchos archivos html. Puede escanear estos archivos en busca de expresiones regulares o utilizar alguna herramienta para convertirlos primero a texto sin formato, ignorando el formato.
Tenga en cuenta que un archivo epub fundamentalmenteno tiene paginas: La paginación la realizará el dispositivo de renderizado y será potencialmente diferente para cada dispositivo de renderizado. Por lo tanto, "buscar varias palabras clave en la misma página" debe cambiarse de alguna manera para tener esto en cuenta, posiblemente utilizando la estructura html.