
我有數千個 Tiff 文件,每個文件都是一個多頁文字文件。我希望能夠搜尋這些文件的內容並根據某些資訊(例如名稱、城市、縣、州、街道、郵遞區號等)組織/索引它們。例如,如果我要搜尋“Doyle,Bob”和“Orange County”,則會檢索包含這些術語的所有文件。我有 Windows 和 Linux 電腦可用,但它不一定是跨平台的。
你有什麼建議?
答案1
我希望能夠搜尋這些(tiff)文件的內容。
下面提供了兩種解決方案,適用於 Windows 和 Linux。
視窗解決方案
您可以安裝TIFF 濾波器。
Windows® TIFF IFilter 可讓您根據文字內容搜尋 TIFF 文件。載入後,Windows TIFF IFilter 對 TIFF 影像執行光學字元辨識 (OCR) 處理,然後將識別的文字提供給呼叫者以建立搜尋索引。
Windows TIFF IFilter 專注於基於文字的文檔,這意味著對於包含可清晰識別的文字(例如,白色背景上的黑色文字)的文檔,搜尋會更成功,而對於包含混合內容的文檔(例如,藝術文本或圖片內的文字)。此外,低品質影像和混合語言會對 OCR 處理產生負面影響,從而降低搜尋結果的品質。
Windows TIFF IFilter 支援符合 Adobe TIFF Revision 6.0 規範的所有 TIFF 文檔,並且包括最常見的壓縮(例如 LZW、JPG、CCITT v4、CCITT v6 和未壓縮)。
來源連結包含詳細的安裝說明。
筆記:
- Windows TIFF 篩選器在 Windows 7 Starter 或 Windows 7 Home Basic 中不可用(根據提示:透過啟用 Tiff 索引在 Windows 7 中搜尋 Tiff 文件)
來源Windows TIFF IFilter 安裝與操作指南
Linux解決方案
將 TIFF 檔案轉換為文字檔案或 PDF 檔案。
下面的連結顯示如何透過中間 OCR 步驟(使用 Tesseract)轉換為 PDF。
中間步驟產生一個文字檔。
這意味著 PDF 是根據文字而不是圖像創建的。
根據需要搜尋文字檔案或 PDF 文件。
看使用 OCR 掃描和編輯文本一種轉換方法。