コンテンツに応じて特定のPDFページを削除する

Question 1

PDFファイルを操作するためのライブラリは数多くありますが、メンテナンスされていないものも含まれています。pyPDFそしてそのフォークpyPDF2 のファイルをページごとに処理し、テキストを抽出して、テキストが適切なページをコピーすることができます。

Python3.6とPyPDF2==1.26.0を使用して以下を実行しました。

#!/usr/bin/env python3
import re
import sys

from PyPDF2 import PdfFileWriter, PdfFileReader

pdf_in = PdfFileReader(sys.stdin.buffer)
pdf_out = PdfFileWriter()
for p in [pdf_in.getPage(i) for i in range(0, pdf_in.getNumPages())]:
    text = p.extractText()
    if not re.search(r'for\s+office\s+use\s+only', text, re.I):
        pdf_out.addPage(p)
pdf_out.write(sys.stdout.buffer)

テキストがドキュメント内で希望どおりに表示されない場合があることに注意してください。PDF ドキュメントでは、行、単語、さらには文字が順序どおりに表示されない場合があります。ドキュメントは、テキストのストリームではなく、特定の座標に表示される部分で構成されます。

テキストが順序どおりに並んでいる場合でも (通常はそうなります)、複数のページにまたがるテキストには、中央にフッターとヘッダーがあります。複数の行にまたがるテキストでは、改行の周囲に余分なスペースがある場合があります。同じ行にあるテキストでも、テキストの位置合わせにより、単語間に複数のスペースがある場合があります (\s+上記の正規表現で単純なスペースではなくを使用したのはそのためです)。

PDFからテキストを抽出するツールはページをテキストとして再構築しようとしますが、必ずしも完璧に機能するとは限りません。pyPdfがドキュメントでうまく機能しない場合は、テキスト抽出用の他のライブラリを試すことができます。これそしてこれいくつかの例についてはスレッドを参照してください。

Answer

パイソン！