
Ich habe ein ziemlich großes (~100 MB) PDF-Dokument mit vielen Bildern darin (als Illustrationen und Hintergrundbilder) und ich hätte gerne eine Kopie dieses PDFs ohne Bilder, kann aber nicht herausfinden, wie das geht.
Ich spreche nicht davon, es nur in Text umzuwandeln, ich möchte Absätze/Tabellen/mehrere Spalten so belassen, wie sie sind.
Ich kenne mich mit der Befehlszeile gut aus und habe mehrere Computer mit unterschiedlichen Distributionen, die ich verwenden kann.
Antwort1
Die neuesten Versionen von Ghostscript können dies auch. Fügen Sie einfach den Parameter -dFILTERIMAGE
zu Ihrem Befehl hinzu.
Es gibt sogar noch zwei weitere neue Parameter, die hinzugefügt werden können, um Inhaltstypen selektiv zu entfernen"Vektor"Und"Text":
-dFILTERIMAGE
: erzeugt eine Ausgabe, bei der alle Rasterbilder entfernt werden.-dFILTERTEXT
: erzeugt eine Ausgabe, bei der alle Textelemente entfernt werden.-dFILTERVECTOR
: erzeugt eine Ausgabe, bei der alle Vektorzeichnungen entfernt werden.
Zwei dieser Optionen können beliebig kombiniert werden. (Wenn Sie alle drei kombinieren, werden alle Seiten gelöscht ...)
Beispiele
Hier ist der Screenshot einer Beispiel-PDF-Seite, die alle drei oben genannten Inhaltstypen enthält:
Screenshot der ursprünglichen PDF-Seiteenthält die Elemente „Bild“, „Vektor“ und „Text“.
Durch Ausführen der folgenden 6 Befehle werden alle 6 möglichen Variationen des verbleibenden Inhalts erstellt:
gs -o noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf gs -o noTXT.pdf -sDEVICE=pdfwrite -dFILTERTEXT input.pdf gs -o noVCT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR input.pdf gs -o onlyIMG.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERTEXT input.pdf gs -o onlyTXT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERIMAGE input.pdf gs -o onlyVCT.pdf -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERTEXT input.pdf
Das folgende Bild veranschaulicht die Ergebnisse:
Oberste Reihe,von links: alle „Texte“ entfernt; alle „Bilder“ entfernt; alle „Vektoren“ entfernt.Untere Reihe,von links: nur „Text“ beibehalten; nur „Bilder“ beibehalten; nur „Vektoren“ beibehalten.
Antwort2
cpdf -draft original.pdf -o version_without_images.pdf
Es befindet sich nicht in den Repositories, aber Sie können es herunterladen (vorkompiliertoderQuelle) AnIhre Website.
15.1 Dokumententwürfe
Die Option -draft entfernt Bitmap-Bilder (Fotos) aus einer Datei, damit diese mit weniger Tinte gedruckt werden können. Optional kann die Option -boxes hinzugefügt werden, die die leeren Stellen mit einem durchgestrichenen Kästchen füllt, das angibt, wo sich das Bild befand. Es ist nicht garantiert, dass dies in allen Fällen vollständig sichtbar ist (das Bitmap könnte teilweise von Vektorobjekten verdeckt oder im Original abgeschnitten worden sein). Beispiel:
cpdf -draft -boxes in.pdf -o out.pdf
Antwort3
Während @Rinzwind Antwort ist dieDas Richtige, ich möchte nur die "Zwischenlösung" kommentieren. Normalerweise können Sie die Größe der Bilder erheblich reduzieren, indem SieGhostscriptmit
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen \
-dNOPAUSE -dQUIET -dBATCH -sOutputFile=small.pdf original.pdf
...es ist manchmal wirklich praktisch zum Korrekturlesen. Die Manualpage zum Schreiben von PDFs istHier.
Antwort4
Sie könnenMeister-PDF-Editor(für Windows, Linux, macOS):
- Öffnen Sie das PDF
- Löschen Sie diese Bilder
- Als neue PDF-Datei speichern
Sie können es vom Ubuntu Software Center herunterladen.