我有一個大目錄,其中有很多 pdf 和 epub 電子書檔案。我想搜尋同一頁面上包含多個關鍵字的檔案。
答案1
選擇任何可以從單一頁面提取文本的實用程式(例如pdftext
),迭代所有頁面並提取文本,將正則表達式應用於提取的文本。
或者,使用您選擇的程式語言、您選擇的 PDF 程式庫,並為其編寫程式。
EPUB
epub 只是一個 zip 檔案。解壓縮它,你會得到很多html檔。您可以掃描這些文件中的正則表達式,或者先使用某種工具將它們轉換為純文本,忽略格式。
請注意,epub 文件從根本上來說是沒有頁面:分頁將由渲染設備完成,並且每個渲染設備可能會有所不同。因此,「在同一頁面上尋找多個關鍵字」必須以某種方式進行更改以考慮到這一點,可能使用 html 結構。