TIFF в TEXT или индексация файлов TIFF на основе текстового содержимого

TIFF в TEXT или индексация файлов TIFF на основе текстового содержимого

У меня есть пара тысяч файлов Tiff, каждый из которых представляет собой многостраничный текстовый документ. Я хотел бы иметь возможность искать содержимое этих файлов и организовывать/индексировать их на основе определенной информации, такой как имя, город, округ, штат, улица, почтовый индекс и т. д. Цель состоит в том, чтобы найти соответствующие файлы на основе поисковых терминов. Например, если бы я искал "Doyle, Bob" И "Orange County", были бы извлечены все файлы, содержащие эти термины. У меня есть ПК с Windows и Linux, но это не обязательно должно быть кроссплатформенным.

Что ты посоветуешь?

решение1

Я хотел бы иметь возможность осуществлять поиск по содержимому этих (TIFF) файлов.

Ниже представлены два решения: для Windows и для Linux.


Решение для Windows

Вы можете установитьTIFF-фильтр.

Windows® TIFF IFilter позволяет вам искать документы TIFF на основе текстового содержимого. После загрузки Windows TIFF IFilter выполняет обработку оптического распознавания символов (OCR) изображений TIFF, а затем предоставляет распознанный текст вызывающей стороне для построения индекса поиска.

Windows TIFF IFilter фокусируется на текстовых документах, что означает, что поиск будет более успешным для документов, содержащих четко идентифицируемый текст (например, черный текст на белом фоне), и менее успешным для документов, содержащих смешанное содержимое (например, художественный текст или текст внутри изображений). Кроме того, низкокачественные изображения и смешанные языки могут негативно повлиять на обработку OCR и, следовательно, снизить качество результатов поиска.

Windows TIFF IFilter поддерживает все документы TIFF, соответствующие спецификациям Adobe TIFF Revision 6.0, и включает наиболее распространенные форматы сжатия (такие как LZW, JPG, CCITT v4, CCITT v6 и несжатые).

Ссылка на источник содержит подробные инструкции по установке.

Примечание:

ИсточникРуководство по установке и эксплуатации Windows TIFF IFilter


Linux-решение

  1. Конвертируйте файлы TIFF в текстовые файлы или файлы PDF.

    • По ссылке ниже показано, как конвертировать в PDF с промежуточным этапом OCR (использующим Tesseract).

    • На промежуточном этапе создается текстовый файл.

    • Это означает, что PDF-файл создается из текста, а не изображений.

  2. Выполняйте поиск в текстовых файлах или файлах PDF по своему усмотрению.

ВидетьСканирование и редактирование текста с помощью OCRза один подход к конверсии.

Связанный контент