
Ich möchte eine PDF-Datei per OCR erkennen, um sie durchsuchbar zu machen.
Angenommen, Sie haben ein PDF-Dokument, das mit einem Scanner erstellt wurde oder aus Bilddaten besteht, aber keine Textdaten enthält. Ein solches PDF kann nicht von PDF-Readern oder Desktop-Suchanwendungen durchsucht werden. pdfocr ist ein einfaches Dienstprogramm, das ich erstellt habe und das eine PDF-Datei annimmt und dann eine neue Datei generiert, der die Textebene hinzugefügt wurde, sodass sie von Ihrem PDF-Reader durchsucht und von Ihrer Desktop-Suchanwendung indiziert werden kann, aber beim Drucken immer noch identisch ist.
AusHowto: Gescannte PDFs durchsuchbar machen (OCR) mit pdfocr
Derzeit macht Windows-Software wie FreeOCR nur eine TXT-Datei aus dem PDF, aber ich möchte das Original-PDF nur, dass esdurchsuchbar.
Antwort1
Adobe Acrobat verfügt über die von Ihnen angesprochene Funktionalität. In Acrobat 10/11 befindet sich die Funktionalität im Abschnitt „Text erkennen“ der Tools (sieheamtliche Dokumentation). Die gleiche Funktionalität war in älteren Versionen verfügbar, der Zugriff erfolgte jedoch etwas anders (sieheAdobes Blog).
Sie können OCR auf allen oder auf einzelnen Seiten durchführen. Nach der Anwendung von OCR sieht das PDF identisch aus (ist dann aber durchsuchbar).