Wie konvertiere ich eine persische PDF-Datei in das Microsoft Word-Format?

Wie konvertiere ich eine persische PDF-Datei in das Microsoft Word-Format?

Ich habe eine PDF-Datei in persischer Schrift und es ist eineRechts nach links. Da Persisch das UTF-8-Format verwendet, kann ich es in Microsoft Word nicht in einfachen Text umwandeln. Außerdem kann ich den Text nicht kopieren und einfügen, da die resultierenden Zeichen unlesbar sind. Ich habe viele Softwareprogramme ausprobiert, wie z. B.unipdfund e-Pdf Converter, allerdings werden die Zeichen nach der Konvertierung immer noch nicht richtig angezeigt. Ich habe sogar OCR versucht, aber wieder trat das gleiche Problem auf. Das PDF hat kein Passwort oder Einschränkungen.

Hat jemand noch andere Ideen?

Bearbeiten: Ich habe tatsächlich versucht, eine Datei in MS Word zu erstellen und sie in eine PDF-Datei zu konvertieren. Danach hatte ich erneut dasselbe Problem mit der PDF-Datei (sogar die Kodierung war bekannt).

Antwort1

Ich hatte das gleiche Problem beim Konvertieren von PDF-Dateien in Word. Nach dem Kopieren/Einfügen in Word änderte sich die Formatierung und verursachte Probleme. Ich habe mehrere Online-Konverter ausprobiert, aber auch sie funktionierten nicht.
Die einzige Methode, die funktionierte, war folgende:

  1. Öffnen Sie die PDF-Datei mit Adobe Acrobat Reader und wählen Sie dann im Dateimenü „Drucken“. Wählen Sie unter den Druckernamen Adobe Acrobat aus. Ja, Sie sind dabei, aus einer PDF-Datei eine PDF-Datei zu erstellen!
  2. Öffnen Sie die neue PDF-Datei mit Google Chrome (ziehen Sie die Datei per Drag & Drop auf Chrome).
  3. Markieren Sie nun einfach den gesamten Text (Strg + A) und kopieren/fügen Sie ihn in eine leere Word-Datei ein.

Antwort2

Sehr häufig werden PDF-Dateien in nicht-lateinischen Schriften (insbesondere RTL-Schriften wie Arabisch, Hebräisch und Farsi) von Software generiert, die den Text auf Wort- oder Satzfragmentebene LTR-isiert oder einfach irgendwie die richtigen Glyphen zur Anzeige bringt, aber für den „logischen“ Text Kauderwelsch erhält. In diesen Fällen kann man nicht viel tun, außer einen benutzerdefinierten Rückkonverter zu schreiben, was praktisch keine Option ist.

Wenn Sie jedoch herausfinden können, wie die Datei erstellt wird (was häufig in den Metadaten angegeben ist, auf die mit gängigen PDF-Readern zugegriffen werden kann), besteht möglicherweise die Möglichkeit, die Datei in der Anwendung zu öffnen, die sie erstellt hat. Oder Sie können Ihre Frage zumindest spezifischer formulieren.

Antwort3

Ich habe gerade daran gearbeitet, eine PDF-Datei in einen bearbeitbaren persischen Text umzuwandeln. Die beste Lösung, die ich gefunden habe, ist die Verwendung von Google Doc wie folgt.

  1. Sie sollten PDF-Seiten in Bilder umwandeln. Dazu können Sie Adobe Acrobat Reader verwenden (nicht den kostenlosen Adobe Reader) oder unter Linux verwende ich GIMP, um eine PDF-Datei zu öffnen, und wähle dann aus, jede Seite in einem separaten Bild zu öffnen. Es ist Ihre eigene Entscheidung.
  2. Laden Sie die Bilddateien auf Google Drive hoch
  3. Gehen Sie zu Google Drive, klicken Sie mit der rechten Maustaste auf jedes Bild und klicken Sie dann aufopen with google doc
  4. warten Sie, bis Google Doc einen editierbaren Text aus Ihrem Bild öffnet
  5. Kopiere es in Word

Ich weiß nicht, ob es eine automatisierte Methode gibt. Ich hoffe, dass ich irgendwann Zeit habe, eine Anwendung zu erstellen, die dies automatisch erledigt.

Antwort4

Ich weiß, es ist zu spät für die Antwort, aber für jeden, der die gleiche Frage hat, könnte ich vorschlagenDelix.irDabei handelt es sich um einen persischen OCR- und PDF-zu-Word-Konverter.

Haftungsausschluss: Ich bin der Gründer von delix.ir und hoffe, dass dies nicht als Werbung angesehen wird.

verwandte Informationen