
Я ищу способ конвертировать тысячи pdf в доступные для поиска pdf. Я использовал программу под названием "PDF Create Assistant", которая идет в комплекте с Nuanceэкопияпрограммное обеспечение. Однако вы не можете выбрать папку, вам придется заходить в каждую подпапку, выбирать файлы для конвертации, а затем переходить к следующей папке.
Какой еще способ конвертировать большое количество PDF-файлов в файлы PDF с возможностью поиска?
Никаких предложений не было. Наверняка должен быть способ пакетного преобразования pdf(?).
решение1
Используйте файл CPYCONVERTER.EXE в папке BIN в качестве командной строки (подстановочные знаки поддерживаются в eCopy Ver.9-Paperworks). Это для 8.5 eCopy Desktop.
Command Line Cpy Converter Version 8.5 (Build 0.116)
Copyright c 1992 - 2004. All rights reserved.
Converts CPY to CPY, CPY to TIF or TIF to CPY
Usage:
cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]
Note:
Wildcards are not supported. Full paths must be used for source and destinatio
n
Switches:
--------------------
-? : This menu
-Q : Turn off logging.
-P : Converter pauses after conversion.
-E : Converter pauses if there is an error.
-B : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>" : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD> : Password for encrypting and decrypting documents.
--------------------
* If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
* If the source document is not encrypted CPY converter will attempt to encrypt
the destination document using the supplied password.
* Please note you cannot encrypt/decrypt tif documents.
-<Conversion Type> : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C - Convert TIF(Any group) to CPY
* U - Convert CPY to CPY
Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy
Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3
Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4
решение2
На линуксе
Сначала вам нужно распознать те PDF
файлы PDF, которые еще не распознаны. Я написал довольно простой способ поиска по всем PDF-файлам, которые невозможно отредактировать, grep
и их распознавания.
Я заметил, что если pdf
файл не имеет шрифта, то он обычно недоступен для поиска. Поэтому, зная это, мы можем использовать pdffonts
.
Первые 2 строки — pdffonts
это заголовок таблицы, поэтому, когда файл доступен для поиска, вывод имеет более двух строк, зная это, мы можем создать:
gedit check_pdf_searchable.sh
затем вставьте это
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi
затем сделайте его исполняемым
chmod +x check_pdf_searchable.sh
затем выведите список всех недоступнх для поиска PDF-файлов в каталоге:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
или в каталоге и его подкаталогах:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
решение3
Самый простой способ — использоватьонлайн-OCR-API. API ocr.space включает поддержку созданияPDF-файлы с возможностью поиска. Бесплатный уровень сервиса составляет 25 000 конверсий в месяц.
Затем вы можете автоматизировать это с помощью Powershell, batch или любого другого языка сценариев. Например, запустите преобразование из batch с помощью cURL:
curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image