如何從 PDF 複製文字而不遺失格式?

如何從 PDF 複製文字而不遺失格式?

當我將文字從 PDF 檔案複製到文字編輯器中時,它最終會以各種方式被破壞。粗體和斜體等格式會遺失;文字段落中的軟換行符將轉換為硬換行符;將單字分成兩行的破折號會被保留,即使它們不應該被保留;並且單引號和雙引號替換為 ?跡象。

理想情況下,我希望能夠從 PDF 複製文本,並將格式轉換為 HTML 程式碼,將“智能引號”轉換為“和 ',並正確完成換行。有什麼方法可以做到這一點嗎?

答案1

首先,您必須了解什麼是PDF。 PDF 旨在模仿列印頁面,並且它們的設計僅有的作為輸出格式,而不是輸入格式。 PDF 基本上是包含字元(單個字母或標點符號等)或圖像的確切位置的地圖。在多數情況下,PDF 甚至不儲存有關其位置的信息單字結束又開始,更不用說段落結尾的軟中斷與硬中斷之類的事情了。

(最近的一些 PDF 確實存儲了有關此內容的一些信息,但這是一項新技術,您很幸運能找到這樣的 PDF。即使您找到了,您的 PDF 檢視器也可能不知道。)

無論如何,由您的軟體來實現某種“人工智慧”,僅從單個字元的位置中提取什麼是單詞,什麼是段落等等。不同的軟體會比其他軟體做得更好,而且這也取決於 PDF 的製作方式。無論如何,你應該絕不期待完美的結果。擁有輸出 PDF 與擁有來源文件不同。如果可以的話,最好嘗試獲得它。

解決您這種問題的標準解決方案是使用 Adob​​e Acrobat Professional(昂貴的一款,而不是免費的閱讀器)將 PDF 轉換為 HTML。即使這樣也不會得到完美的結果。

有一些免費軟體可用於從 PDF 中提取文本,並且某些格式保持不變,但同樣,不要指望完美的結果。參見,例如,calibre(可轉換為RTF格式),pdftohtml/pdfreflow或者AbiWord 文字處理器(啟用所有導入/導出插件)。還有一個 OpenOffice 的 PDF 導入外掛。

但請不要期望這些結果都是完美的。你在這裡違背了原則。 PDF 並不是一種可編輯的輸入格式。

答案2

另一個選擇是下載並開始使用免費的 pdf 檢視器 Foxit(它很好)。然後您可以“另存為”並選擇 .txt 將其轉換為文字檔案。這將保留所有格式。我不知道你是否可以在 Adob​​e 中做同樣的事情,因為我不久前轉換為 Foxit 時就停止使用它了。

答案3

有一個非常好的線上工具,叫做瑟吉達。它涉及高級 PDF 操作。沒有軟體可供下載。因為它是一個新的線上工具目前仍處於測試階段。它允許您從 PDF 中提取文本,並提供無數其他 PDF 功能

http://www.sejda.com/

sejda 功能的簡短影片回顧於 2012 年 11 月 14 日透過修訂版 3 完成,可在此處找到:

http://revision3.com/tzdaily/sejda-online-pdf

答案4

為此,您可以使用 Adob​​e Acrobat Pro。

對於表格:Acrobat 9/10 具有選擇表格功能。使用 Acrobat X,您只需按一下「另存為」>「電子表格」>「Excel」。它甚至將頁面連接成一個長電子表格。很棒的功能。

對於文字:存在用於匯出到 MS Word 的類似功能。另存為 > Word > Word 文件。

資料來源:

相關內容