如何從 PDF 複製文字而不遺失格式？

Question 1

首先，您必須了解什麼是PDF。 PDF 旨在模仿列印頁面，並且它們的設計僅有的作為輸出格式，而不是輸入格式。 PDF 基本上是包含字元（單個字母或標點符號等）或圖像的確切位置的地圖。在多數情況下，PDF 甚至不儲存有關其位置的信息單字結束又開始，更不用說段落結尾的軟中斷與硬中斷之類的事情了。

（最近的一些 PDF 確實存儲了有關此內容的一些信息，但這是一項新技術，您很幸運能找到這樣的 PDF。即使您找到了，您的 PDF 檢視器也可能不知道。）

無論如何，由您的軟體來實現某種“人工智慧”，僅從單個字元的位置中提取什麼是單詞，什麼是段落等等。不同的軟體會比其他軟體做得更好，而且這也取決於 PDF 的製作方式。無論如何，你應該絕不期待完美的結果。擁有輸出 PDF 與擁有來源文件不同。如果可以的話，最好嘗試獲得它。

解決您這種問題的標準解決方案是使用 Adobe Acrobat Professional（昂貴的一款，而不是免費的閱讀器）將 PDF 轉換為 HTML。即使這樣也不會得到完美的結果。

有一些免費軟體可用於從 PDF 中提取文本，並且某些格式保持不變，但同樣，不要指望完美的結果。參見，例如，calibre（可轉換為RTF格式），pdftohtml/pdfreflow或者AbiWord 文字處理器（啟用所有導入/導出插件）。還有一個 OpenOffice 的 PDF 導入外掛。

但請不要期望這些結果都是完美的。你在這裡違背了原則。 PDF 並不是一種可編輯的輸入格式。

Answer

首先，您必須了解什麼是PDF。 PDF 旨在模仿列印頁面，並且它們的設計僅有的作為輸出格式，而不是輸入格式。 PDF 基本上是包含字元（單個字母或標點符號等）或圖像的確切位置的地圖。在多數情況下，PDF 甚至不儲存有關其位置的信息單字結束又開始，更不用說段落結尾的軟中斷與硬中斷之類的事情了。

（最近的一些 PDF 確實存儲了有關此內容的一些信息，但這是一項新技術，您很幸運能找到這樣的 PDF。即使您找到了，您的 PDF 檢視器也可能不知道。）

無論如何，由您的軟體來實現某種“人工智慧”，僅從單個字元的位置中提取什麼是單詞，什麼是段落等等。不同的軟體會比其他軟體做得更好，而且這也取決於 PDF 的製作方式。無論如何，你應該絕不期待完美的結果。擁有輸出 PDF 與擁有來源文件不同。如果可以的話，最好嘗試獲得它。

解決您這種問題的標準解決方案是使用 Adobe Acrobat Professional（昂貴的一款，而不是免費的閱讀器）將 PDF 轉換為 HTML。即使這樣也不會得到完美的結果。

有一些免費軟體可用於從 PDF 中提取文本，並且某些格式保持不變，但同樣，不要指望完美的結果。參見，例如，calibre（可轉換為RTF格式），pdftohtml/pdfreflow或者AbiWord 文字處理器（啟用所有導入/導出插件）。還有一個 OpenOffice 的 PDF 導入外掛。

但請不要期望這些結果都是完美的。你在這裡違背了原則。 PDF 並不是一種可編輯的輸入格式。

Question 2

另一個選擇是下載並開始使用免費的 pdf 檢視器 Foxit（它很好）。然後您可以“另存為”並選擇 .txt 將其轉換為文字檔案。這將保留所有格式。我不知道你是否可以在 Adobe 中做同樣的事情，因為我不久前轉換為 Foxit 時就停止使用它了。

Answer

另一個選擇是下載並開始使用免費的 pdf 檢視器 Foxit（它很好）。然後您可以“另存為”並選擇 .txt 將其轉換為文字檔案。這將保留所有格式。我不知道你是否可以在 Adobe 中做同樣的事情，因為我不久前轉換為 Foxit 時就停止使用它了。

Question 3

有一個非常好的線上工具，叫做瑟吉達。它涉及高級 PDF 操作。沒有軟體可供下載。因為它是一個新的線上工具目前仍處於測試階段。它允許您從 PDF 中提取文本，並提供無數其他 PDF 功能

http://www.sejda.com/

sejda 功能的簡短影片回顧於 2012 年 11 月 14 日透過修訂版 3 完成，可在此處找到：

http://revision3.com/tzdaily/sejda-online-pdf

Answer

有一個非常好的線上工具，叫做瑟吉達。它涉及高級 PDF 操作。沒有軟體可供下載。因為它是一個新的線上工具目前仍處於測試階段。它允許您從 PDF 中提取文本，並提供無數其他 PDF 功能

http://www.sejda.com/

sejda 功能的簡短影片回顧於 2012 年 11 月 14 日透過修訂版 3 完成，可在此處找到：

http://revision3.com/tzdaily/sejda-online-pdf

Question 4

為此，您可以使用 Adobe Acrobat Pro。

對於表格：Acrobat 9/10 具有選擇表格功能。使用 Acrobat X，您只需按一下「另存為」>「電子表格」>「Excel」。它甚至將頁面連接成一個長電子表格。很棒的功能。

對於文字：存在用於匯出到 MS Word 的類似功能。另存為 > Word > Word 文件。

資料來源：

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
我剛剛這麼做了，效果非常好。

Answer

為此，您可以使用 Adobe Acrobat Pro。

對於表格：Acrobat 9/10 具有選擇表格功能。使用 Acrobat X，您只需按一下「另存為」>「電子表格」>「Excel」。它甚至將頁面連接成一個長電子表格。很棒的功能。

對於文字：存在用於匯出到 MS Word 的類似功能。另存為 > Word > Word 文件。

資料來源：

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
我剛剛這麼做了，效果非常好。

如何從 PDF 複製文字而不遺失格式？

答案1

答案2

答案3

答案4

相關內容