Convertir por lotes PDF en PDF con capacidad de búsqueda

Convertir por lotes PDF en PDF con capacidad de búsqueda

Estoy buscando una manera de convertir miles de archivos PDF en archivos PDF con capacidad de búsqueda. Utilicé un programa llamado "PDF Create Assistant" que vino con Nuance.ecocopiasoftware. Sin embargo, no puede seleccionar una carpeta, debe ir a cada subcarpeta, seleccionar los archivos para convertir y luego ir a la siguiente carpeta.

¿Cuál es otra forma de convertir una gran cantidad de archivos PDF en archivos PDF con capacidad de búsqueda?

No he tenido ninguna sugerencia. Seguramente debe haber una manera de convertir archivos PDF por lotes (?).

Respuesta1

Utilice el archivo CPYCONVERTER.EXE en la carpeta BIN como línea de comando (se admiten comodines en eCopy Ver.9-Paperworks). Esto es para eCopy Desktop 8.5.

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4

Respuesta2

En Linux

Primero necesitas realizar OCR en los PDFarchivos que aún no lo son. Escribí una forma bastante sencilla de buscar todos los archivos PDF que no se pueden grepeditar y realizar OCR.

Noté que si un pdfarchivo no tiene ninguna fuente, generalmente no se puede buscar. Entonces, sabiendo esto podemos usar pdffonts.

Las primeras 2 líneas de pdffontsson el encabezado de la tabla, por lo que cuando se puede buscar un archivo tiene más de dos líneas de salida, sabiendo esto podemos crear:

gedit check_pdf_searchable.sh

luego pega esto

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

luego hazlo ejecutable

chmod +x check_pdf_searchable.sh

luego enumere todos los archivos PDF que no se pueden buscar en el directorio:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

o en el directorio y sus subdirectorios:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

Respuesta3

La forma más sencilla es utilizar unAPI de OCR en línea. La API de ocr.space incluye soporte para creararchivos PDF con capacidad de búsqueda. El servicio tiene un nivel gratuito de 25.000 conversiones por mes.

Luego puede automatizar esto con Powershell, por lotes o cualquier otro lenguaje de secuencias de comandos. Por ejemplo, active la conversión por lotes con cURL:

curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image

información relacionada