如何修復損壞的 PDF?

如何修復損壞的 PDF?

我在 Apple Books 中有一本來自 iPad 上本地文件的書 (PDF)。我在 PDF 上做了兩個月的筆記。

今天我無法打開它並收到錯誤:

“無法開啟文件。無法開啟 ''”

所以我將檔案空投到 Mac 上,嘗試在 Preview、Adobe 和 Acrobat 中開啟它。我在任何地方嘗試過該文件,但都無法開啟該文件。它可能已損壞或損壞。

我嘗試使用Ghostscript( gs)來修復它,但沒有成功:

gs \
 -o repaired.pdf \
 -sDEVICE=pdfwrite \
 -dPDFSETTINGS=/prepress \
  corrupted.pdf

我收到一個錯誤:

Catalog dictionary not located in file, unable to proceed


**** Error: Couldn't initialise file.
               Output may be incorrect.



No pages will be processed (FirstPage > LastPage).

The following errors were encountered at least once while processing this file:
    startxref offset invalid
    xref table was repaired

   **** This file had errors that were repaired or ignored.
   **** Please notify the author of the software that produced this
   **** file that it does not conform to Adobe's published PDF
   **** specification.

我嘗試更新 iPad 並重新啟動,似乎沒有解決問題。

該文件大約150MB。我可以做什麼來恢復它?

答案1

我已經處理電腦資料59 1/2 年了,過去40 年來解決了各種級別的遺失資料問題,包括狡猾的開關和繼電器、撕破的紙帶和蟲蛀的卡片、拉伸的磁帶和電纜、彎曲或破裂的磁碟和片狀薯條。有些令人驚奇的故事,我不能說,否則你會懷疑我的理智、僱用我的人或感染他們數據的人。

因此,第一個建議是找出原因,即使那是陳詞濫調的“你在牆上關掉了嗎?”

下一步是評估恢復的機會與再次這樣做的成本。

所以這是一個有趣的挑戰,但答案並不好。

如果您認為編輯設備有可能存在隱藏的已刪除副本,且更換成本異常高。那麼,可能值得花錢將斷電的設備連接到診斷系統,在診斷系統中可以對磁碟進行鏡像並掃描已刪除的%PDF-標頭。

現代磁碟往往要么無法實現這一點(固態),要么像以前那樣容易,通過快速將釋放的空間重新用於大型內存存儲緩存,從而覆蓋丟失的數據。

現在到「有問題的」儲存文件的中心。

它保留了許多所需的資料。然而,透過與未經編輯的來源檔案相比,我們可以說損失非常顯著。

來源 PDF 已經編輯過兩次(一個新封面?和一個小調整),因此添加不同的編輯時會殘留一些奇怪的東西(這並不罕見,但要避免)。

core /Size 39679 objects  
edit /Size 39692  
edit /Size 39694  

如果我重組該原始文件,工作計數將優化為 /Size 37546 物件。表示存在一些冗餘,但同樣並不罕見。

兩個月內的添加量應該會超過每天幾個,使計數增加到 40,000 或更多。然而它報告它是/Size 70957。因此,額外的大約 32,000 個項目需要全部包含在保留文件中,但它比所需的要小。

作為測試(為了我的比較),我只恢復了一頁註釋(不知道它覆蓋了哪一頁。它可能不典型,但一頁大約是 120 KB。

這裡可能沒有意義,因為您無法在脫離上下文的情況下看到此處的元件,但可能是右手頁面上的最後一頁變更(請參閱日期)。

在此輸入影像描述

我們可以將它放在新的封面上(仍然不是正確的未知刪除頁面)

在此輸入影像描述

總而言之,我的直覺是,恢復成本緩慢,並且保留對象數量較少(/註釋數=約 57(頁?),表明恢復比“再做一次”的勞動力更昂貴。從67961 到70957 是一個很好的組,因此這些應該是可以恢復的。

我發現的最好的恢復應用程式https://superuser.com/a/1808687/1769247。只顯示標稱頁數從180 到240 的物件(總共849 個),並且實際上複製了兩倍以上的附加圖像頁面,因為從圖形角度來看,有些是軟遮罩的負片,因此850-1845是可能會出現的片段。

這是修復剩餘部分的 30 天鏈接https://filetransfer.io/data-package/nbXvfSBp#link

在此輸入影像描述

未來的建議

  1. 將主文件分成 4 個方便的部分,這有 3 倍的好處。

    • 每個部分的渲染速度和對大量註釋的反應速度都會更快。
    • 修復原始檔案中的任何基礎問題。
    • 將未來的災難性損失一次減少至 25%。
  2. 重新考慮註釋軟體處理所需大量記憶體的能力以及「斷電」損失的可能性,其中任何臨時故障都可能破壞開啟的編輯檔案。

  3. 在可靠的本機磁碟系統(例如工作站)上工作,而不是在同步的雲端磁碟機上工作。

  4. 不要使用修復的文件本身,只需將其用作重複任務的提示即可。可能包括在 PDF GUI 編輯器中剪下和貼上對象,以避免任何其他錯誤的遺留。

具體情況的可能性。
您可能會發現頁碼不同步,但順序正確,或者幸運的是,可以找到傳輸到主檔案的完美順序。如果是這種情況,那麼有一些命令列工具「可能」會透過從恢復檔案(例如 JSON)匯出/註解來加速傳輸,然後允許按頁碼匯入到適當優化的主檔案中。此類工具之一可能是相干的 cpdf,因為它具有優化器工具和 /Annots 匯出導入。但我不能說它是否能很好地回答這個問題。

相關內容