Eu tenho um grande diretório que contém muitos arquivos de e-books em PDF e epub. Quero pesquisar arquivos que contenham várias palavras-chave na mesma página.
Responder1
Escolha qualquer utilitário que possa extrair texto de uma única página (por exemplo pdftext
), iterar em todas as páginas e extrair texto, aplicar regexp ao texto extraído.
Ou use uma linguagem de programação de sua escolha, uma biblioteca PDF de sua escolha e escreva um programa para ela.
EPUB
Um epub é apenas um arquivo zip. Descompacte-o e você obterá muitos arquivos HTML. Você pode verificar esses arquivos em busca de expressões regulares ou usar alguma ferramenta para convertê-los primeiro em texto simples, ignorando a formatação.
Observe que um arquivo epub fundamentalmentenão tem páginas: a paginação será feita pelo dispositivo de renderização e será potencialmente diferente para cada dispositivo de renderização. Portanto, "procurar várias palavras-chave na mesma página" deve ser alterado de alguma forma para levar isso em consideração, possivelmente usando a estrutura html.