TIFF a TEXTO o indexar archivos TIFF según el contenido de texto

TIFF a TEXTO o indexar archivos TIFF según el contenido de texto

Tengo un par de miles de archivos Tiff, cada uno de los cuales es un documento de texto de varias páginas. Me gustaría poder buscar el contenido de estos archivos y organizarlos/indexarlos según cierta información, como nombre, ciudad, condado, estado, calle, código postal, etc. El objetivo es encontrar los archivos relevantes según términos de búsqueda. Por ejemplo, si buscara "Doyle, Bob" Y "Condado de Orange", se recuperarían todos los archivos que contengan estos términos. Tengo PC con Windows y Linux disponibles, pero no es necesario que sean multiplataforma.

¿Que sugieres?

Respuesta1

Me gustaría poder buscar el contenido de estos archivos (tiff).

A continuación se presentan dos soluciones, para Windows y para Linux.


Solución de Windows

Puedes instalar elTIFF IFiltro.

Windows® TIFF IFilter le permite buscar documentos TIFF según el contenido de texto. Cuando se carga, Windows TIFF IFilter realiza el procesamiento de reconocimiento óptico de caracteres (OCR) de imágenes TIFF y luego proporciona el texto reconocido a la persona que llama para crear el índice de búsqueda.

Windows TIFF IFilter se centra en documentos basados ​​en texto, lo que significa que la búsqueda será más exitosa para documentos que contengan texto claramente identificable (por ejemplo, texto negro sobre fondo blanco) y menos exitosa para documentos que contengan contenido mixto (por ejemplo, texto artístico o texto dentro de imágenes). Además, las imágenes de baja calidad y los idiomas mixtos pueden afectar negativamente al procesamiento de OCR y, en consecuencia, reducir la calidad de los resultados de la búsqueda.

Windows TIFF IFilter admite todos los documentos TIFF que cumplen con las especificaciones de Adobe TIFF Revisión 6.0 e incluye las compresiones más frecuentes (como LZW, JPG, CCITT v4, CCITT v6 y sin comprimir).

El enlace fuente incluye instrucciones de instalación detalladas.

Nota:

FuenteGuía de instalación y operaciones de Windows TIFF IFilter


Solución Linux

  1. Convierta los archivos TIFF a archivos de texto o archivos PDF.

    • El enlace a continuación muestra cómo convertir a PDF con un paso intermedio de OCR (que usa Tesseract).

    • El paso intermedio produce un archivo de texto.

    • Esto significa que el PDF se crea a partir de texto, no de imágenes.

  2. Busque los archivos de texto o los archivos PDF como desee.

VerEscanear y editar texto con OCRpara un enfoque para la conversión.

información relacionada