Text aus einer geschützten PDF-Datei kann mit Adobe Reader nicht kopiert werden

Text aus einer geschützten PDF-Datei kann mit Adobe Reader nicht kopiert werden

Ich habe ein technisches PDF-Dokument aus einer Drittanbieterquelle, aus dem ich eine kleine Menge komplizierten Text kopieren musste. Ich habe den Text ausgewählt und festgestellt, dass die Kopieroption ausgegraut war. Ich habe mir die Eigenschaften angesehen und es schien gegen Kopieren geschützt zu sein. Ich wollte den Text kopieren, anstatt ihn erneut einzugeben, da er etwas kompliziert war und ich Tippfehler vermeiden wollte.

Antwort1

Wenn dieses PDF kein Bild ist, verwenden Sie den Befehl pdftotext. Dies ist ein in Ubuntu integriertes Dienstprogramm. Wenn das PDF eine Bilddatei ist, müssen Sie es in JPG konvertieren und dann mit Tesseract erkennen.

convert-im6.q16 -density 300 yourfile.pdf yourfile.jpg
tesseract -l en youfile.pdf

Antwort2

Durch das Öffnen der Datei in einer alternativen PDF-Anwendung, beispielsweise einem Browser, können Sie möglicherweise EINIGE Schutzmechanismen umgehen, die auf eine PDF-Datei angewendet werden.

Wenn der PDF-Inhalt ein Bild ist (es wurde beispielsweise gescannt), funktioniert dies möglicherweise nicht und Sie benötigen ein Tool mit OCR (optische Zeichenerkennung), um das Bild zu analysieren und daraus den Text zu generieren.

verwandte Informationen