
Tenho alguns milhares de arquivos Tiff, cada um deles um documento de texto de várias páginas. Gostaria de poder pesquisar o conteúdo desses arquivos e organizá-los/indexá-los com base em determinadas informações, como Nome, Cidade, Município, Estado, Rua, CEP, etc. termos de pesquisa. Por exemplo, se eu pesquisasse "Doyle, Bob" E "Orange County", todos os arquivos contendo esses termos seriam recuperados. Tenho PCs Windows e Linux disponíveis, mas não precisa ser multiplataforma.
O que você sugere?
Responder1
Gostaria de poder pesquisar o conteúdo desses arquivos (tiff).
Duas soluções são apresentadas a seguir, para Windows e para Linux.
Solução Windows
Você pode instalar oFiltro TIFF.
O Windows® TIFF IFilter permite pesquisar documentos TIFF com base no conteúdo de texto. Quando carregado, o Windows TIFF IFilter executa o processamento de reconhecimento óptico de caracteres (OCR) de imagens TIFF e, em seguida, fornece o texto reconhecido ao chamador para criar o índice de pesquisa.
O Windows TIFF IFilter concentra-se em documentos baseados em texto, o que significa que a pesquisa será mais bem-sucedida em documentos que contenham texto claramente identificável (por exemplo, texto preto sobre fundo branco) e menos bem-sucedida em documentos que contenham conteúdo misto (por exemplo, texto artístico ou texto dentro de imagens). Além disso, imagens de baixa qualidade e idiomas mistos podem impactar negativamente o processamento de OCR e, consequentemente, diminuir a qualidade dos resultados da pesquisa.
O Windows TIFF IFilter oferece suporte a todos os documentos TIFF compatíveis com as especificações do Adobe TIFF Revisão 6.0 e inclui as compactações mais frequentes (como LZW, JPG, CCITT v4, CCITT v6 e descompactado).
O link da fonte inclui instruções detalhadas de instalação.
Observação:
- O Filtro TIFF do Windows não está disponível no Windows 7 Starter ou no Windows 7 Home Basic (de acordo comDica: pesquise arquivos Tiff no Windows 7 ativando a indexação Tiff)
FonteGuia de instalação e operações do Windows TIFF IFilter
Solução Linux
Converta os arquivos TIFF em arquivos de texto ou PDF.
O link abaixo mostra como converter para PDF com uma etapa intermediária de OCR (que usa Tesseract).
A etapa intermediária produz um arquivo de texto.
Isso significa que o PDF é criado a partir de texto e não de imagens.
Pesquise os arquivos de texto ou PDF como desejar.
VerDigitalizando e editando texto com OCRpara uma abordagem para a conversão.