TIFF zu TEXT oder Indizierung von TIFF-Dateien basierend auf Textinhalt

TIFF zu TEXT oder Indizierung von TIFF-Dateien basierend auf Textinhalt

Ich habe ein paar tausend Tiff-Dateien, jede davon ist ein mehrseitiges Textdokument. Ich möchte den Inhalt dieser Dateien durchsuchen und sie anhand bestimmter Informationen wie Name, Stadt, Landkreis, Staat, Straße, Postleitzahl usw. organisieren/indizieren können. Das Ziel besteht darin, die relevanten Dateien anhand von Suchbegriffen zu finden. Wenn ich beispielsweise nach „Doyle, Bob“ UND „Orange County“ suche, werden alle Dateien abgerufen, die diese Begriffe enthalten. Ich habe Windows- und Linux-PCs zur Verfügung, aber es muss nicht plattformübergreifend sein.

Was schlagen Sie vor?

Antwort1

Ich möchte den Inhalt dieser (TIFF-)Dateien durchsuchen können.

Nachfolgend werden zwei Lösungen vorgestellt, für Windows und für Linux.


Windows-Lösung

Sie können dieTIFF IFilter.

Mit Windows® TIFF IFilter können Sie nach TIFF-Dokumenten basierend auf Textinhalt suchen. Wenn Windows TIFF IFilter geladen ist, führt es eine OCR-Verarbeitung (Optical Character Recognition) von TIFF-Bildern durch und stellt den erkannten Text dann dem Aufrufer zur Verfügung, um den Suchindex zu erstellen.

Windows TIFF IFilter konzentriert sich auf textbasierte Dokumente. Das bedeutet, dass die Suche erfolgreicher ist, wenn der Text eindeutig erkennbar ist (z. B. schwarzer Text auf weißem Hintergrund), und weniger erfolgreich, wenn der Inhalt gemischt ist (z. B. künstlerischer Text oder Text in Bildern). Darüber hinaus können Bilder in schlechter Qualität und gemischte Sprachen die OCR-Verarbeitung negativ beeinflussen und folglich die Qualität der Suchergebnisse verringern.

Windows TIFF IFilter unterstützt alle TIFF-Dokumente, die den Spezifikationen der Adobe TIFF Revision 6.0 entsprechen, und umfasst die gängigsten Komprimierungen (wie LZW, JPG, CCITT v4, CCITT v6 und unkomprimiert).

Der Quelllink enthält detaillierte Installationsanweisungen.

Notiz:

QuelleInstallations- und Betriebshandbuch für Windows TIFF IFilter


Linux-Lösung

  1. Konvertieren Sie die TIFF-Dateien in Textdateien oder PDF-Dateien.

    • Der folgende Link zeigt, wie man mit einem OCR-Zwischenschritt (der Tesseract verwendet) in PDF konvertiert.

    • Der Zwischenschritt erzeugt eine Textdatei.

    • Dies bedeutet, dass das PDF aus Text und nicht aus Bildern erstellt wird.

  2. Durchsuchen Sie nach Wunsch die Textdateien oder die PDF-Dateien.

SehenScannen und Bearbeiten von Text mit OCRfür einen Ansatz zur Konvertierung.

verwandte Informationen