Manuelles Hinzufügen einer Textebene (OCR) über einem gescannten Bild

Manuelles Hinzufügen einer Textebene (OCR) über einem gescannten Bild

Ich habe ein PDF, das aus gescannten Bildern von Seiten eines alten gedruckten Buches besteht. (Es wurde nicht OCR-gescannt und ist daher nicht durchsuchbar.) Mit dem GoogleCloud Vision APIkann man OCR durchführen und, was noch interessanter ist, die Position des (Begrenzungsrahmens für) jedes Wort ermitteln. Nun kann man mit TeX/LaTeX (mit einer beliebigen Engine)gibt es eine Möglichkeit diese Wörter an den entsprechenden Stellen ins PDF einzufügen, d. h. manuell eine (unsichtbare) OCR-/Textebene zur PDF-Datei hinzufügen, sodass das gescannte Bild weiterhin sichtbar ist, der Text aber ausgewählt und kopiert werden kann?

(Mir ist klar, dass wir für diese Aufgabe TeX nicht wirklich brauchen, da wir weder die strukturierten Dokumentfunktionen von LaTeX noch die Satzfunktionen von TeX verwenden (Absätze in Zeilen unterteilen, Unterschneidungen vornehmen usw.) und manuell Text positionieren, der nicht einmal sichtbar ist. Aber ich kenne auch kein anderes Tool: Es gibt Tools wie tesseractdieses, die automatisch OCR durchführen und den Text hinzufügen, aber ich möchte die Kontrolle haben und entscheiden können, welcher Text wohin gehört. Es gibt wahrscheinlich eine Möglichkeit, dies innerhalb von TeX/XeTeX/LuaTeX zu tun.)

Antwort1

Sie können das transparent-Paket verwenden, um Text transparent zu machen. Kopieren und Einfügen sollte gut funktionieren, aber den zu kopierenden Text zu finden ist etwas schwieriger ;-) transparent funktioniert derzeit mit pdflatex und lualatex, im nächsten Text Live wird es auch mit (x)dvipdfmx funktionieren.

\documentclass{article}
\usepackage{pdfpages,transparent}
\usepackage{eso-pic}

\AddToShipoutPictureFG{\AtPageCenter{\texttransparent{0}{\Huge This is some text in the center}}}
\begin{document}
\includepdf[pages=1]{example-image-a}
\end{document}

Bildbeschreibung hier eingeben

verwandte Informationen