我有一個盲人朋友,我有一個 PDF,我想唸給他聽。
該 PDF 大約有 200 頁設計精美的文字(其中有一些包含文字的圖片和圖形,但這些很少見,需要手動清理才能找到)。不幸的是,PDF 的邏輯結構表現得很糟糕:PDF 不知道其兩列文字流,索引和目錄條目實際上都不是連結。
我可以輕鬆存取 Linux 計算機,但存取 Windows XP 計算機則稍微困難一些,並且我了解用於自動化後處理的正規表示式和腳本語言。
到目前為止,我已經找到了一種將 PDF 垂直切成兩半的方法(使用來自http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/,在將 PDF 轉換為 PDF1.4 以便不包含交叉引用流或任何名稱之後),這樣大多數內容都處於正確的順序,然後使用pdftohtml
一些標記來提取文字。不幸的是,這無法重現文件的邏輯結構(它識別一些斜體標記,但已經丟失了所有章節、章節和小節標題,這些標題始終使用一致的字體大小和顏色來突出顯示,更不用說段落分隔符ETC。
我對口徑,但該轉換工具也無法處理標記錯誤的兩列 pdf,也無法從所使用的字體中獲取結構,儘管它在將段落保持在一起方面具有一些優勢。
如何將 PDF 轉換為適合盲人存取的格式?