TIFF para TEXT ou indexe arquivos TIFF com base no conteúdo de texto

TIFF para TEXT ou indexe arquivos TIFF com base no conteúdo de texto

Tenho alguns milhares de arquivos Tiff, cada um deles um documento de texto de várias páginas. Gostaria de poder pesquisar o conteúdo desses arquivos e organizá-los/indexá-los com base em determinadas informações, como Nome, Cidade, Município, Estado, Rua, CEP, etc. termos de pesquisa. Por exemplo, se eu pesquisasse "Doyle, Bob" E "Orange County", todos os arquivos contendo esses termos seriam recuperados. Tenho PCs Windows e Linux disponíveis, mas não precisa ser multiplataforma.

O que você sugere?

Responder1

Gostaria de poder pesquisar o conteúdo desses arquivos (tiff).

Duas soluções são apresentadas a seguir, para Windows e para Linux.


Solução Windows

Você pode instalar oFiltro TIFF.

O Windows® TIFF IFilter permite pesquisar documentos TIFF com base no conteúdo de texto. Quando carregado, o Windows TIFF IFilter executa o processamento de reconhecimento óptico de caracteres (OCR) de imagens TIFF e, em seguida, fornece o texto reconhecido ao chamador para criar o índice de pesquisa.

O Windows TIFF IFilter concentra-se em documentos baseados em texto, o que significa que a pesquisa será mais bem-sucedida em documentos que contenham texto claramente identificável (por exemplo, texto preto sobre fundo branco) e menos bem-sucedida em documentos que contenham conteúdo misto (por exemplo, texto artístico ou texto dentro de imagens). Além disso, imagens de baixa qualidade e idiomas mistos podem impactar negativamente o processamento de OCR e, consequentemente, diminuir a qualidade dos resultados da pesquisa.

O Windows TIFF IFilter oferece suporte a todos os documentos TIFF compatíveis com as especificações do Adobe TIFF Revisão 6.0 e inclui as compactações mais frequentes (como LZW, JPG, CCITT v4, CCITT v6 e descompactado).

O link da fonte inclui instruções detalhadas de instalação.

Observação:

FonteGuia de instalação e operações do Windows TIFF IFilter


Solução Linux

  1. Converta os arquivos TIFF em arquivos de texto ou PDF.

    • O link abaixo mostra como converter para PDF com uma etapa intermediária de OCR (que usa Tesseract).

    • A etapa intermediária produz um arquivo de texto.

    • Isso significa que o PDF é criado a partir de texto e não de imagens.

  2. Pesquise os arquivos de texto ou PDF como desejar.

VerDigitalizando e editando texto com OCRpara uma abordagem para a conversão.

informação relacionada