
我有一個由許多掃描頁面組成的 PDF。下面顯示了文字的範例片段(不必擔心隱私,因為這是公開可用的文件)。正如你所看到的,它很難閱讀。
我想運行一個程序,可以讀取這個PDF,確定文本,並輸出一個包含文本的文件(文本文件,markdown,無後綴的Linux文件,甚至另一個清理過的PDF,任何都可以),這樣對於我自己和其他人來說,閱讀起來更容易。除了適當的句子間距等之外,我不太在乎格式。
我嘗試過 pdftotext,但它輸出的文件(在文字編輯器中)似乎只是一遍又一遍地“^L^L^L”。我也嘗試了 ocrmypdf,但也沒有成功(儘管我不確定我是否正確使用了它)。併發症包括圖像相對「髒」、文字包含各種印刷錯誤、多餘空格和拼字錯誤的單字。您建議使用哪些其他選項(在 Linux 上可用)來從此文件中提取文字?
答案1
輸出來自免費OCR,使用舊的Tesseract OCR 引擎 v. 5.1, 在下面。這是不是透過調整圖像參數(例如對比度)進行最佳化,也不是透過選擇特定字體(可能使用固定寬度),也不是透過選擇訓練詞彙檔案之一(或透過使用諸如「Aronburg」之類的特定單字來建立一個新文件)來優化到主題),毫無疑問,這些變化會得到改善。
如果這是僅有的要處理的項目,不值得花精力改進處理,但如果您有更多影像,您可以調整 OCR 設定以獲得更好的結果。
盧盧盧盧庫
' 幾乎被摧毀,安哥拉國家
介紹?
a 偉大先生的這篇描述以及所有結果,也許是作者有史以來寫的最嚴厲的,在任何法博盧斯戰爭的路線上,都可能被命名為這樣的 nae nama,“戰爭”。這個故事在 DN 上持續了 7 年,而這本書的作者已經花了 11 年多的時間來寫作。出長而圖形的細節,並從一天到今天,為了勝利而奮鬥。
基督客棧站在這場漫長而血腥的戰爭中,儘管基督=丹斯因一個奇怪的阿倫堡之謎而戰敗。
這是任何人都無法解決的,甚至我自己也無法解決,當他們力挽狂瀾時,他們終於獲勝了。可怕的阿倫堡戰役中的敵人符文:。
就像阿倫堡兒童謀殺案一樣,阿倫堡事件也威脅到了我
在偉大的格蘭科·安哥拉戰爭的整個過程中,我們都知道三個克里斯汀國家的命運,並且據預測,解決阿倫堡謎案或對她的“刺客”進行復仇是唯一的希望-任何機會基督教國家贏得了電線,阿比安尼亞成功地粉碎了格倫德里寧本人,之後,克拉維里尼亞被摧毀了,並且“
小傑不會在阿納伊塞被消滅