Me gustaría poder escanear documentos en papel a archivos PDF y hacer que el texto se pueda buscar. Creo que el programa Tesseract puede ayudar con esto, pero no sé cómo empezar y no sé cuál sería el mejor programa a utilizar.
¿Alguien está creando archivos PDF con capacidad de búsqueda con éxito?
Respuesta1
Puedo recomendar ocrmypdf
, verhttps://github.com/ocrmypdf/OCRmyPDF, también empaquetado para Ubuntu. Puedes instalarlo ejecutando:
sudo apt install ocrmypdf
Puedes usarlo de la siguiente manera:
ocrmypdf -l eng infile.pdf outfile.pdf
La ocrmypdf
llamada anterior es simple y especifica el idioma del documento como inglés ( -l eng
). Hay muchas opciones en elman
página; es posible que desee descubrirlos según sea necesario con el tiempo.