Conversão em lote de PDFs para PDFs pesquisáveis

Conversão em lote de PDFs para PDFs pesquisáveis

Estou procurando uma maneira de converter milhares de PDFs em PDFs pesquisáveis. Usei um programa chamado "PDF Create Assistant" que acompanha o Nuance'secópiaProgramas. No entanto, você não pode selecionar uma pasta, você deve ir em cada subpasta, selecionar os arquivos a serem convertidos e depois ir para a próxima pasta.

Qual é outra maneira de converter um grande número de PDFs em PDFs pesquisáveis?

Não tive nenhuma sugestão. Certamente deve haver uma maneira de converter PDFs em lote (?).

Responder1

Use o arquivo CPYCONVERTER.EXE na pasta BIN como uma linha de comando (curingas suportados no eCopy Ver.9-Paperworks). Isto é para o eCopy Desktop 8.5.

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4

Responder2

No linux

Primeiro você precisa fazer o OCR dos PDFarquivos que ainda não são OCR. Eu escrevi uma maneira bastante simples de pesquisar todos os PDFs que não podem ser grepeditados e fazer o OCR deles.

Percebi que se um pdfarquivo não tiver nenhuma fonte, geralmente não será pesquisável. Então, sabendo disso, podemos usar pdffonts.

As 2 primeiras linhas pdffontssão o cabeçalho da tabela, então quando um arquivo é pesquisável tem mais de duas linhas de saída, sabendo disso podemos criar:

gedit check_pdf_searchable.sh

então cole isso

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

então torne-o executável

chmod +x check_pdf_searchable.sh

em seguida, liste todos os PDFs não pesquisáveis ​​no diretório:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

ou no diretório e seus subdiretórios:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

Responder3

A maneira mais fácil é usar umAPI ocr on-line. A API ocr.space inclui suporte para criaçãoPDFs pesquisáveis. O serviço tem um nível gratuito de 25.000 conversões por mês.

Você pode então automatizar isso com Powershell, lote ou qualquer outra linguagem de script. Por exemplo, acione a conversão de lote com cURL:

curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image

informação relacionada