So entfernen Sie Bilder aus einer PDF-Datei

So entfernen Sie Bilder aus einer PDF-Datei

Ich habe ein ziemlich großes (~100 MB) PDF-Dokument mit vielen Bildern darin (als Illustrationen und Hintergrundbilder) und ich hätte gerne eine Kopie dieses PDFs ohne Bilder, kann aber nicht herausfinden, wie das geht.

Ich spreche nicht davon, es nur in Text umzuwandeln, ich möchte Absätze/Tabellen/mehrere Spalten so belassen, wie sie sind.

Ich kenne mich mit der Befehlszeile gut aus und habe mehrere Computer mit unterschiedlichen Distributionen, die ich verwenden kann.

Antwort1

Die neuesten Versionen von Ghostscript können dies auch. Fügen Sie einfach den Parameter -dFILTERIMAGEzu Ihrem Befehl hinzu.

Es gibt sogar noch zwei weitere neue Parameter, die hinzugefügt werden können, um Inhaltstypen selektiv zu entfernen"Vektor"Und"Text":

  1. -dFILTERIMAGE: erzeugt eine Ausgabe, bei der alle Rasterbilder entfernt werden.

  2. -dFILTERTEXT: erzeugt eine Ausgabe, bei der alle Textelemente entfernt werden.

  3. -dFILTERVECTOR: erzeugt eine Ausgabe, bei der alle Vektorzeichnungen entfernt werden.

Zwei dieser Optionen können beliebig kombiniert werden. (Wenn Sie alle drei kombinieren, werden alle Seiten gelöscht ...)

Beispiele

Hier ist der Screenshot einer Beispiel-PDF-Seite, die alle drei oben genannten Inhaltstypen enthält:

Screenshot der ursprünglichen PDF-Seiteenthält die Elemente „Bild“, „Vektor“ und „Text“.
Screenshot der Original-PDF-Seite mit den Elementen „Bild“, „Vektor“ und „Text“.


Durch Ausführen der folgenden 6 Befehle werden alle 6 möglichen Variationen des verbleibenden Inhalts erstellt:

gs -o noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf
 gs -o noTXT.pdf -sDEVICE=pdfwrite -dFILTERTEXT input.pdf
 gs -o noVCT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR input.pdf

 gs -o onlyIMG.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERTEXT input.pdf
 gs -o onlyTXT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERIMAGE input.pdf
 gs -o onlyVCT.pdf -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERTEXT input.pdf

Das folgende Bild veranschaulicht die Ergebnisse:


Oberste Reihe,von links: alle „Texte“ entfernt; alle „Bilder“ entfernt; alle „Vektoren“ entfernt.Untere Reihe,von links: nur „Text“ beibehalten; nur „Bilder“ beibehalten; nur „Vektoren“ beibehalten.
Obere Reihe von links: der gesamte „Text“ wurde entfernt; alle „Bilder“ wurden entfernt; alle „Vektoren“ wurden entfernt. Untere Reihe von links: nur der „Text“ wurde beibehalten; nur die „Bilder“ wurden beibehalten; nur die „Vektoren“ wurden beibehalten.


Antwort2

cpdf -draft original.pdf -o version_without_images.pdf

Es befindet sich nicht in den Repositories, aber Sie können es herunterladen (vorkompiliertoderQuelle) AnIhre Website.


Handbuch:

15.1 Dokumententwürfe

Die Option -draft entfernt Bitmap-Bilder (Fotos) aus einer Datei, damit diese mit weniger Tinte gedruckt werden können. Optional kann die Option -boxes hinzugefügt werden, die die leeren Stellen mit einem durchgestrichenen Kästchen füllt, das angibt, wo sich das Bild befand. Es ist nicht garantiert, dass dies in allen Fällen vollständig sichtbar ist (das Bitmap könnte teilweise von Vektorobjekten verdeckt oder im Original abgeschnitten worden sein). Beispiel:

 cpdf -draft -boxes in.pdf -o out.pdf

Antwort3

Während @Rinzwind Antwort ist dieDas Richtige, ich möchte nur die "Zwischenlösung" kommentieren. Normalerweise können Sie die Größe der Bilder erheblich reduzieren, indem SieGhostscriptmit

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen \
   -dNOPAUSE -dQUIET -dBATCH -sOutputFile=small.pdf original.pdf

...es ist manchmal wirklich praktisch zum Korrekturlesen. Die Manualpage zum Schreiben von PDFs istHier.

Antwort4

Sie könnenMeister-PDF-Editor(für Windows, Linux, macOS):

  1. Öffnen Sie das PDF
  2. Löschen Sie diese Bilder
  3. Als neue PDF-Datei speichern

Sie können es vom Ubuntu Software Center herunterladen.

verwandte Informationen