如何將波斯語 pdf 檔案轉換為 Microsoft word 格式?

如何將波斯語 pdf 檔案轉換為 Microsoft word 格式?

我有一個 pdf 文件,它是波斯文字,它是右到左。由於波斯語使用 UTF-8 格式,因此我無法將其轉換為 Microsoft Word 中的純文本,也無法複製貼上文本,從而產生不可讀的字元。我嘗試過很多軟體,例如統一PDF和 e-Pdf Converter 但是轉換後字元仍然無法正確顯示。我什至嘗試過 OCR,但同樣的問題再次出現。該 PDF 沒有任何密碼或限制。

還有人有其他想法嗎?

編輯:我實際上嘗試在 MS Word 中建立一個文件並將其轉換為 PDF,之後我再次遇到了與 PDF 文件相同的問題。

答案1

我在將 pdf 文件轉換為 word 時遇到了同樣的問題。在 Word 中複製/貼上後,格式發生變化並造成問題。我嘗試了幾個在線轉換器,但都失敗了。
唯一有效的方法如下:

  1. 使用 Adob​​e Acrobat Reader 開啟 pdf 文件,然後從文件選單中選擇列印。從印表機名稱中,選擇 adobe acrobat。是的,您即將從 pdf 建立 pdf!
  2. 使用 Google Chrome 開啟新的 pdf 檔案(將檔案拖放到 Chrome 上)。
  3. 現在只需選擇所有文字 (ctrl + A) 並將其複製/貼上到空白 Word 文件中。

答案2

通常,非拉丁文字(尤其是阿拉伯語、希伯來語和波斯語等RTL 文字)的PDF 文件是由軟體生成的,該軟體在單字或句子片段層級對文本進行LTR 化,或者只是以某種方式取得正確的字形顯示但你會得到「邏輯」文字的亂碼。在這些情況下,除了編寫一個自訂的反向轉換器之外,幾乎沒有什麼可做的,這實際上不是一個選項。

但是,如果您可以弄清楚文件是如何創建的 - 這通常在使用常見 PDF 閱讀器可訪問的元數據中指示 - 可能有一個選項可以在生成該文件的應用程序中打開該文件,或者至少您可以你的問題更具體。

答案3

我目前正在努力將 pdf 轉換為可編輯的波斯文本。我發現的最佳解決方案是使用 google doc,如下所示。

  1. 您應該將 pdf 頁面轉換為圖像。為此,您可以使用 Adob​​e acrobat reader(不是免費的 adobe reader),或者在 Linux 中我使用 GIMP 開啟 pdf,然後選擇在單獨的圖片中開啟每個頁面。這是你自己的選擇。
  2. 將圖像檔案上傳到 Google 雲端硬碟
  3. 前往 Google 雲端硬碟並右鍵單擊每個圖像,然後按一下open with google doc
  4. 等到谷歌文件從您的圖像中打開可編輯的文本
  5. 將其複製到word中

不知道有沒有自動化的方法。我希望有一天我有時間申請自動執行此操作。

答案4

我知道現在回答已經太晚了,但對於有相同問題的人,我可以建議德利克斯.ir這是一個波斯語 OCR 和 PDF 到文字轉換器。

免責聲明:我是delix.ir的創辦人,希望不要被視為廣告。

相關內容