Adobe Reader を使用して保護された PDF ファイルからテキストをコピーできない

Adobe Reader を使用して保護された PDF ファイルからテキストをコピーできない

サードパーティのソースから技術的な PDF ドキュメントを入手し、そこから複雑なテキストを少しコピーする必要がありました。テキストを選択すると、コピー オプションがグレー表示されていました。プロパティを確認すると、コピーが禁止されているようでした。テキストが少し複雑で、タイプミスを避けたかったため、再入力するのではなく、コピーしたいと考えました。

答え1

この PDF が画像でない場合は、pdftotext コマンドを使用します。これは Ubuntu に組み込まれているユーティリティです。PDF が画像ファイルの場合は、それを jpg に変換してから、tesseract で認識する必要があります。

convert-im6.q16 -density 300 yourfile.pdf yourfile.jpg
tesseract -l en youfile.pdf

答え2

ブラウザなどの別の PDF アプリケーションでファイルを開くことは、PDF に適用されている可能性のある一部の保護を回避する簡単な方法となる場合があります。

PDF コンテンツが画像の場合 (たとえばスキャンされたもの)、この方法は機能しない可能性があり、画像を分析してそこからテキストを生成するには OCR (光学式文字認識) 機能を備えたツールが必要になります。

関連情報