自動將 PDF 轉換為盲人可讀格式

2024-7-16 • tag-icon

我有一個盲人朋友，我有一個 PDF，我想唸給他聽。

該 PDF 大約有 200 頁設計精美的文字（其中有一些包含文字的圖片和圖形，但這些很少見，需要手動清理才能找到）。不幸的是，PDF 的邏輯結構表現得很糟糕：PDF 不知道其兩列文字流，索引和目錄條目實際上都不是連結。

我可以輕鬆存取 Linux 計算機，但存取 Windows XP 計算機則稍微困難一些，並且我了解用於自動化後處理的正規表示式和腳本語言。

到目前為止，我已經找到了一種將 PDF 垂直切成兩半的方法（使用來自http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/，在將 PDF 轉換為 PDF1.4 以便不包含交叉引用流或任何名稱之後），這樣大多數內容都處於正確的順序，然後使用pdftohtml一些標記來提取文字。不幸的是，這無法重現文件的邏輯結構（它識別一些斜體標記，但已經丟失了所有章節、章節和小節標題，這些標題始終使用一致的字體大小和顏色來突出顯示，更不用說段落分隔符ETC。

我對口徑，但該轉換工具也無法處理標記錯誤的兩列 pdf，也無法從所使用的字體中獲取結構，儘管它在將段落保持在一起方面具有一些優勢。

如何將 PDF 轉換為適合盲人存取的格式？

相關內容