
Estoy buscando una manera de convertir miles de archivos PDF en archivos PDF con capacidad de búsqueda. Utilicé un programa llamado "PDF Create Assistant" que vino con Nuance.ecocopiasoftware. Sin embargo, no puede seleccionar una carpeta, debe ir a cada subcarpeta, seleccionar los archivos para convertir y luego ir a la siguiente carpeta.
¿Cuál es otra forma de convertir una gran cantidad de archivos PDF en archivos PDF con capacidad de búsqueda?
No he tenido ninguna sugerencia. Seguramente debe haber una manera de convertir archivos PDF por lotes (?).
Respuesta1
Utilice el archivo CPYCONVERTER.EXE en la carpeta BIN como línea de comando (se admiten comodines en eCopy Ver.9-Paperworks). Esto es para eCopy Desktop 8.5.
Command Line Cpy Converter Version 8.5 (Build 0.116)
Copyright c 1992 - 2004. All rights reserved.
Converts CPY to CPY, CPY to TIF or TIF to CPY
Usage:
cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]
Note:
Wildcards are not supported. Full paths must be used for source and destinatio
n
Switches:
--------------------
-? : This menu
-Q : Turn off logging.
-P : Converter pauses after conversion.
-E : Converter pauses if there is an error.
-B : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>" : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD> : Password for encrypting and decrypting documents.
--------------------
* If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
* If the source document is not encrypted CPY converter will attempt to encrypt
the destination document using the supplied password.
* Please note you cannot encrypt/decrypt tif documents.
-<Conversion Type> : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C - Convert TIF(Any group) to CPY
* U - Convert CPY to CPY
Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy
Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3
Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4
Respuesta2
En Linux
Primero necesitas realizar OCR en los PDF
archivos que aún no lo son. Escribí una forma bastante sencilla de buscar todos los archivos PDF que no se pueden grep
editar y realizar OCR.
Noté que si un pdf
archivo no tiene ninguna fuente, generalmente no se puede buscar. Entonces, sabiendo esto podemos usar pdffonts
.
Las primeras 2 líneas de pdffonts
son el encabezado de la tabla, por lo que cuando se puede buscar un archivo tiene más de dos líneas de salida, sabiendo esto podemos crear:
gedit check_pdf_searchable.sh
luego pega esto
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi
luego hazlo ejecutable
chmod +x check_pdf_searchable.sh
luego enumere todos los archivos PDF que no se pueden buscar en el directorio:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
o en el directorio y sus subdirectorios:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
Respuesta3
La forma más sencilla es utilizar unAPI de OCR en línea. La API de ocr.space incluye soporte para creararchivos PDF con capacidad de búsqueda. El servicio tiene un nivel gratuito de 25.000 conversiones por mes.
Luego puede automatizar esto con Powershell, por lotes o cualquier otro lenguaje de secuencias de comandos. Por ejemplo, active la conversión por lotes con cURL:
curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image