答案1
我在將 pdf 文件轉換為 word 時遇到了同樣的問題。在 Word 中複製/貼上後,格式發生變化並造成問題。我嘗試了幾個在線轉換器,但都失敗了。
唯一有效的方法如下:
- 使用 Adobe Acrobat Reader 開啟 pdf 文件,然後從文件選單中選擇列印。從印表機名稱中,選擇 adobe acrobat。是的,您即將從 pdf 建立 pdf!
- 使用 Google Chrome 開啟新的 pdf 檔案(將檔案拖放到 Chrome 上)。
- 現在只需選擇所有文字 (ctrl + A) 並將其複製/貼上到空白 Word 文件中。
答案2
通常,非拉丁文字(尤其是阿拉伯語、希伯來語和波斯語等RTL 文字)的PDF 文件是由軟體生成的,該軟體在單字或句子片段層級對文本進行LTR 化,或者只是以某種方式取得正確的字形顯示但你會得到「邏輯」文字的亂碼。在這些情況下,除了編寫一個自訂的反向轉換器之外,幾乎沒有什麼可做的,這實際上不是一個選項。
但是,如果您可以弄清楚文件是如何創建的 - 這通常在使用常見 PDF 閱讀器可訪問的元數據中指示 - 可能有一個選項可以在生成該文件的應用程序中打開該文件,或者至少您可以你的問題更具體。
答案3
我目前正在努力將 pdf 轉換為可編輯的波斯文本。我發現的最佳解決方案是使用 google doc,如下所示。
- 您應該將 pdf 頁面轉換為圖像。為此,您可以使用 Adobe acrobat reader(不是免費的 adobe reader),或者在 Linux 中我使用 GIMP 開啟 pdf,然後選擇在單獨的圖片中開啟每個頁面。這是你自己的選擇。
- 將圖像檔案上傳到 Google 雲端硬碟
- 前往 Google 雲端硬碟並右鍵單擊每個圖像,然後按一下
open with google doc
- 等到谷歌文件從您的圖像中打開可編輯的文本
- 將其複製到word中
不知道有沒有自動化的方法。我希望有一天我有時間申請自動執行此操作。
答案4
我知道現在回答已經太晚了,但對於有相同問題的人,我可以建議德利克斯.ir這是一個波斯語 OCR 和 PDF 到文字轉換器。
免責聲明:我是delix.ir的創辦人,希望不要被視為廣告。