Вручную добавьте текстовый слой (OCR) поверх отсканированного изображения

Вручную добавьте текстовый слой (OCR) поверх отсканированного изображения

У меня есть PDF-файл, состоящий из отсканированных изображений страниц старой печатной книги. (Он не был распознан, поэтому недоступен для поиска.) Используя GoogleAPI облачного зрения, можно выполнить OCR, и что еще интереснее, получить положение (ограничивающей рамки) каждого слова. Теперь, используя TeX/LaTeX (с любым движком),есть ли способ добавить эти слова в PDF в соответствующие позиции?, т.е. вручную добавить (невидимый) слой OCR/текста в PDF-файл таким образом, чтобы отсканированное изображение оставалось видимым, а текст можно было выделить и скопировать?

(Я понимаю, что поскольку мы не используем ни функции структурированного документа LaTeX, ни функции набора текста TeX — разбиение абзацев на строки, кернинг и т. д. — и вручную позиционируем текст, который даже не будет виден, может показаться, что TeX на самом деле не нужен для этой работы. Но я не знаю других инструментов: есть такие инструменты, которые tesseractавтоматически выполняют OCR и добавляют текст, но мне нужен контроль, чтобы иметь возможность выбирать, какой текст куда поместить. Вероятно, есть способ сделать это из TeX/XeTeX/LuaTeX.)

решение1

Вы можете использовать прозрачный пакет, чтобы сделать текст прозрачным. Копирование и вставка должны работать нормально, но найти текст для копирования немного сложнее ;-) transparent в настоящее время работает с pdflatex и lualatex, в следующем тексте live он также будет работать с (x)dvipdfmx.

\documentclass{article}
\usepackage{pdfpages,transparent}
\usepackage{eso-pic}

\AddToShipoutPictureFG{\AtPageCenter{\texttransparent{0}{\Huge This is some text in the center}}}
\begin{document}
\includepdf[pages=1]{example-image-a}
\end{document}

введите описание изображения здесь

Связанный контент