
かなり大きい (約 100 MB) PDF ドキュメントがあり、その中には多くの画像 (イラストや背景画像など) が含まれています。その PDF を画像なしでコピーしたいのですが、その方法がわかりません。
テキストのみに変換するのではなく、段落/表/複数列をそのまま維持したいのです。
私はコマンドラインに慣れており、使用できるさまざまなディストリビューションを搭載したコンピューターを複数持っています。
答え1
-dFILTERIMAGE
Ghostscript の最新リリースでもこれを行うことができます。コマンドにパラメータを追加するだけです。
コンテンツタイプを選択的に削除するために追加できる新しいパラメータがさらに2つあります。"ベクター"そして"文章":
-dFILTERIMAGE
: すべてのラスター イメージが削除された出力を生成します。-dFILTERTEXT
: すべてのテキスト要素が削除された出力を生成します。-dFILTERVECTOR
: すべてのベクター描画が削除された出力を生成します。
これらのオプションのうち 2 つを組み合わせることができます。(3 つすべてを組み合わせると、すべてのページが空白になります...)
例
以下は、上記の 3 種類のコンテンツすべてを含むサンプル PDF ページのスクリーンショットです。
元のPDFページのスクリーンショット「画像」、「ベクター」、および「テキスト」要素が含まれます。
次の 6 つのコマンドを実行すると、残りのコンテンツの 6 つの可能なバリエーションがすべて作成されます。
gs -o noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE 入力.pdf gs -o noTXT.pdf -sDEVICE=pdfwrite -dFILTERTEXT 入力.pdf gs -o noVCT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR 入力.pdf gs -o onlyIMG.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERTEXT 入力.pdf gs -o onlyTXT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERIMAGE input.pdf gs -o onlyVCT.pdf -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERTEXT 入力.pdf
次の画像は結果を示しています。
上段、左から: すべての「テキスト」が削除されました。すべての「画像」が削除されました。すべての「ベクター」が削除されました。最終行、左から: 「テキスト」のみ保持、「画像」のみ保持、「ベクター」のみ保持。
答え2
cpdf -draft original.pdf -o version_without_images.pdf
リポジトリにはありませんが、ダウンロードは可能です(プリコンパイル済みまたはソース) の上ウェブサイト。
15.1 ドラフト文書
-draft オプションは、ファイルからビットマップ (写真) イメージを削除し、少ないインクで印刷できるようにします。オプションで -boxes オプションを追加して、空白のスペースを、イメージがあった場所を示すバツ印の付いたボックスで埋めることができます。これは、すべてのケースで完全に表示されるとは限りません (ビットマップは、元のファイルでベクター オブジェクトによって部分的に覆われていたり、クリップされている可能性があります)。例:
cpdf -draft -boxes in.pdf -o out.pdf
答え3
答え4
使用できますマスターPDFエディター(Windows、Linux、macOS の場合):
- PDFを開く
- これらの画像を削除する
- 新しいPDFファイルとして保存
Ubuntu ソフトウェア センターからダウンロードできます。