Como posso encontrar arquivos PDF e epub que contenham várias palavras-chave na mesma página?

Como posso encontrar arquivos PDF e epub que contenham várias palavras-chave na mesma página?

Eu tenho um grande diretório que contém muitos arquivos de e-books em PDF e epub. Quero pesquisar arquivos que contenham várias palavras-chave na mesma página.

Responder1

PDF

Escolha qualquer utilitário que possa extrair texto de uma única página (por exemplo pdftext), iterar em todas as páginas e extrair texto, aplicar regexp ao texto extraído.

Ou use uma linguagem de programação de sua escolha, uma biblioteca PDF de sua escolha e escreva um programa para ela.

EPUB

Um epub é apenas um arquivo zip. Descompacte-o e você obterá muitos arquivos HTML. Você pode verificar esses arquivos em busca de expressões regulares ou usar alguma ferramenta para convertê-los primeiro em texto simples, ignorando a formatação.

Observe que um arquivo epub fundamentalmentenão tem páginas: a paginação será feita pelo dispositivo de renderização e será potencialmente diferente para cada dispositivo de renderização. Portanto, "procurar várias palavras-chave na mesma página" deve ser alterado de alguma forma para levar isso em consideração, possivelmente usando a estrutura html.

informação relacionada