スキャンした画像に手動でテキストレイヤー(OCR)を追加する

スキャンした画像に手動でテキストレイヤー(OCR)を追加する

古い印刷本のページのスキャン画像で構成されたPDFがあります。(OCR処理されていないため、検索できません。)GoogleクラウドビジョンAPIすると、OCRを実行することができ、さらに興味深いことに、各単語の(境界ボックスの)位置を取得できます。TeX/LaTeX(任意のエンジンを使用)を使用すると、これらの単語をPDFの対応する位置に追加する方法はありますか?つまり、スキャンした画像は表示されたまま、テキストを選択してコピーできるように、(非表示の) OCR/テキスト レイヤーを PDF に手動で追加するということですか?

(LaTeX の構造化ドキュメント機能も、TeX の組版機能 (段落を行に分割したり、カーニングを行うなど) も使用しておらず、目に見えないテキストを手動で配置しているため、この作業には TeX は実際には必要ないと思われるかもしれません。しかし、他のツールも知りません。OCR をtesseract自動的に実行してテキストを追加するツールはありますが、どのテキストをどこに配置するかを選択できるように制御したいのです。おそらく、TeX/XeTeX/LuaTeX 内からそれを実行する方法があるでしょう。)

答え1

transparent パッケージを使用すると、テキストを透明にすることができます。コピー & ペーストは問題なく機能しますが、コピーするテキストを見つけるのが少し難しくなります ;-) transparent は現在 pdflatex と lualatex で機能し、次のテキスト ライブでは (x)dvipdfmx でも機能する予定です。

\documentclass{article}
\usepackage{pdfpages,transparent}
\usepackage{eso-pic}

\AddToShipoutPictureFG{\AtPageCenter{\texttransparent{0}{\Huge This is some text in the center}}}
\begin{document}
\includepdf[pages=1]{example-image-a}
\end{document}

ここに画像の説明を入力してください

関連情報