ペルシャ語の PDF ファイルを Microsoft Word 形式に変換するにはどうすればいいですか?

ペルシャ語の PDF ファイルを Microsoft Word 形式に変換するにはどうすればいいですか?

私はペルシャ語のPDFファイルを持っていますが、それは右から左にペルシャ語はUTF-8形式を使用しているため、Microsoft Wordでプレーンテキストに変換できず、テキストをコピーして貼り付けることもできず、判読できない文字になります。私は次のような多くのソフトウェアを試しました。ユニPDFe-Pdf Converter も使用しましたが、変換後も文字が正しく表示されません。OCR も試しましたが、やはり同じ問題が発生しました。PDF にはパスワードや制限はありません。

他に何かアイデアはありますか?

編集: 実際に MS Word でファイルを作成し、それを PDF に変換してみましたが、その後も PDF ファイルで同じ問題が発生しました (エンコードはわかっていました)。

答え1

PDF ファイルを Word に変換するときにも同じ問題が発生しました。Word でコピー/貼り付けすると、書式が変わってしまい、問題が発生しました。オンライン コンバータをいくつか試しましたが、どれも失敗しました。
唯一機能した方法は次のとおりです。

  1. Adobe Acrobat Reader で PDF ファイルを開き、ファイル メニューから印刷を選択します。プリンター名から Adob​​e Acrobat を選択します。はい、PDF から PDF を作成しようとしています。
  2. 新しい PDF ファイルを Google Chrome で開きます (ファイルを Chrome にドラッグ アンド ドロップします)。
  3. 次に、すべてのテキストを選択 (Ctrl + A) し、それをコピーして空の Word ファイルに貼り付けます。

答え2

多くの場合、非ラテン文字 (特にアラビア語、ヘブライ語、ペルシア語などの RTL 文字) の PDF ファイルは、テキストを単語または文の断片レベルで LTR 化するソフトウェアによって生成されるか、または何らかの方法で正しいグリフを表示して「論理的」なテキストが意味不明になります。このような場合、カスタムの逆コンバーターを作成する以外にできることはほとんどありませんが、これは実質的に選択肢ではありません。

ただし、ファイルの作成方法がわかれば (一般的な PDF リーダーを使用してアクセスできるメタデータに示されていることが多い)、ファイルを生成したアプリケーションでファイルを開くオプションがあるか、少なくとも質問をより具体的にすることができます。

答え3

現在、PDF を編集可能なペルシア語テキストに変換する作業を行っています。私が見つけた最善の解決策は、次のように Google ドキュメントを使用することです。

  1. PDF ページを画像に変換する必要があります。このためには、Adobe Acrobat Reader (無料の Adob​​e Reader ではありません) を使用するか、Linux では GIMP を使用して PDF を開き、各ページを個別の画像で開くように選択します。これは、あなた自身の選択です。
  2. 画像ファイルをGoogleドライブにアップロードする
  3. Googleドライブにアクセスし、各画像を右クリックしてクリックしますopen with google doc
  4. Googleドキュメントが画像から編集可能なテキストを開くまで待ちます
  5. ワードにコピーする

自動化の方法があるかどうかはわかりません。いつか、これを自動的に行うアプリケーションを作成する時間ができたらいいなと思います。

答え4

答えるには遅すぎることは分かっていますが、同じ疑問を持っている人には、デリックスこれはペルシャ語の OCR および PDF から単語へのコンバーターです。

免責事項: 私は delix.ir の創設者であり、これが広告として扱われないことを望んでいます。

関連情報