PDFコンテンツを表示/読むことはできるが、テキストを抽出することはできない

PDFコンテンツを表示/読むことはできるが、テキストを抽出することはできない

PDFファイルをダウンロードしましたが、表示、印刷、変更はできますが、単純なテキストコピーができません。簡単に検索しても、これがどのように実現されるかはわかりませんでした。macOSのプレビューアプリとChromeのPDFビューアで試してみました。プレビューアプリでは?、Chromeでは空白が表示されます。

下の画像では 8 が表示されていますが、コピーしようとすると空白が表示されます。これ?は、macOS ではそのエンコードを読み取ることができないことを示していると思います。

ここに画像の説明を入力してください

答え1

これは、.jpg から pdf を作成することによって生じる制限 (副作用) です。

OCR ソフトウェアでテキストを抽出する以外に、これを修正する方法はありません。PDF から直接実行できない場合は、.jpg 形式で印刷して使用してください。

答え2

このツールを使用して PDF をテキストに変換できます。pdf2テキスト-ocr

その後、コピーや検索などが可能になります。ファイルはブラウザ内でローカルに変換されます。OCCR外部サーバーにアップロードされることはありません。無料のオープンソースです。

開示:私は pdf2text-ocr の作者です。職場で同じ問題を抱えていた友人を助けるために作成しました。

関連情報