由文字圖像組成的 PDF - 如何轉換為文字檔案?

由文字圖像組成的 PDF - 如何轉換為文字檔案?

我有一個由許多掃描頁面組成的 PDF。下面顯示了文字的範例片段(不必擔心隱私,因為這是公開可用的文件)。正如你所看到的,它很難閱讀。

PDF 範例

我想運行一個程序,可以讀取這個PDF,確定文本,並輸出一個包含文本的文件(文本文件,markdown,無後綴的Linux文件,甚至另一個清理過的PDF,任何都可以),這樣對於我自己和其他人來說,閱讀起來更容易。除了適當的句子間距等之外,我不太在乎格式。

我嘗試過 pdftotext,但它輸出的文件(在文字編輯器中)似乎只是一遍又一遍地“^L^L^L”。我也嘗試了 ocrmypdf,但也沒有成功(儘管我不確定我是否正確使用了它)。併發症包括圖像相對「髒」、文字包含各種印刷錯誤、多餘空格和拼字錯誤的單字。您建議使用哪些其他選項(在 Linux 上可用)來從此文件中提取文字?

答案1

輸出來自免費OCR,使用舊的Tesseract OCR 引擎 v. 5.1, 在下面。這是不是透過調整圖像參數(例如對比度)進行最佳化,也不是透過選擇特定字體(可能使用固定寬度),也不是透過選擇訓練詞彙檔案之一(或透過使用諸如「Aronburg」之類的特定單字來建立一個新文件)來優化到主題),毫無疑問,這些變化會得到改善。

如果這是僅有的要處理的項目,不值得花精力改進處理,但如果您有更多影像,您可以調整 OCR 設定以獲得更好的結果。

盧盧盧盧庫

' 幾乎被摧毀,安哥拉國家

介紹?

a 偉大先生的這篇描述以及所有結果,也許是作者有史以來寫的最嚴厲的,在任何法博盧斯戰爭的路線上,都可能被命名為這樣的 nae nama,“戰爭”。這個故事在 DN 上持續了 7 年,而這本書的作者已經花了 11 年多的時間來寫作。出長而圖形的細節,並從一天到今天,為了勝利而奮鬥。

基督客棧站在這場漫長而血腥的戰爭中,儘管基督=丹斯因一個奇怪的阿倫堡之謎而戰敗。

這是任何人都無法解決的,甚至我自己也無法解決,當他們力挽狂瀾時,他們終於獲勝了。可怕的阿倫堡戰役中的敵人符文:。

就像阿倫堡兒童謀殺案一樣,阿倫堡事件也威脅到了我

在偉大的格蘭科·安哥拉戰爭的整個過程中,我們都知道三個克里斯汀國家的命運,並且據預測,解決阿倫堡謎案或對她的“刺客”進行復仇是唯一的希望-任何機會基督教國家贏得了電線,阿比安尼亞成功地粉碎了格倫德里寧本人,之後,克拉維里尼亞被摧毀了,並且“

小傑不會在阿納伊塞被消滅

答案2

對一個人來說,這可能至少需要四年七個月,或幸運的話只需十一年。最好的解決方案是看看是否有可能由群眾幽靈寫出這個「經典」(或糾纏谷歌的慈善部門),但你需要有基本規則來確定是否應該保留拼字錯誤?

在此輸入影像描述

只有較早的頁面是打字的,而許多較晚的頁面是單色的,因此需要再次進行灰階掃描,才有可能進行 OCR 或人工轉錄。 在此輸入影像描述

相關內容