TIFF 到 TEXT,或根據文字內容索引 TIFF 文件

TIFF 到 TEXT,或根據文字內容索引 TIFF 文件

我有數千個 Tiff 文件,每個文件都是一個多頁文字文件。我希望能夠搜尋這些文件的內容並根據某些資訊(例如名稱、城市、縣、州、街道、郵遞區號等)組織/索引它們。例如,如果我要搜尋“Doyle,Bob”和“Orange County”,則會檢索包含這些術語的所有文件。我有 Windows 和 Linux 電腦可用,但它不一定是跨平台的。

你有什麼建議?

答案1

我希望能夠搜尋這些(tiff)文件的內容。

下面提供了兩種解決方案,適用於 Windows 和 Linux。


視窗解決方案

您可以安裝TIFF 濾波器

Windows® TIFF IFilter 可讓您根據文字內容搜尋 TIFF 文件。載入後,Windows TIFF IFilter 對 TIFF 影像執行光學字元辨識 (OCR) 處理,然後將識別的文字提供給呼叫者以建立搜尋索引。

Windows TIFF IFilter 專注於基於文字的文檔,這意味著對於包含可清晰識別的文字(例如,白色背景上的黑色文字)的文檔,搜尋會更成功,而對於包含混合內容的文檔(例如,藝術文本或圖片內的文字)。此外,低品質影像和混合語言會對 OCR 處理產生負面影響,從而降低搜尋結果的品質。

Windows TIFF IFilter 支援符合 Adob​​e TIFF Revision 6.0 規範的所有 TIFF 文檔,並且包括最常見的壓縮(例如 LZW、JPG、CCITT v4、CCITT v6 和未壓縮)。

來源連結包含詳細的安裝說明。

筆記:

來源Windows TIFF IFilter 安裝與操作指南


Linux解決方案

  1. 將 TIFF 檔案轉換為文字檔案或 PDF 檔案。

    • 下面的連結顯示如何透過中間 OCR 步驟(使用 Tesseract)轉換為 PDF。

    • 中間步驟產生一個文字檔。

    • 這意味著 PDF 是根據文字而不是圖像創建的。

  2. 根據需要搜尋文字檔案或 PDF 文件。

使用 OCR 掃描和編輯文本一種轉換方法。

相關內容