
Ich suche nach einer Möglichkeit, Tausende von PDFs in durchsuchbare PDFs umzuwandeln. Ich habe ein Programm namens "PDF Create Assistant" verwendet, das mit NuanceseKopieSoftware. Sie können jedoch keinen Ordner auswählen, sondern müssen in jeden Unterordner gehen, die zu konvertierenden Dateien auswählen und dann zum nächsten Ordner gehen.
Gibt es eine andere Möglichkeit, eine große Anzahl von PDFs in durchsuchbare PDFs umzuwandeln?
Habe keine Vorschläge bekommen. Es muss doch eine Möglichkeit geben, PDFs stapelweise zu konvertieren(?).
Antwort1
Verwenden Sie die Datei CPYCONVERTER.EXE im BIN-Ordner als Befehlszeile (Platzhalter werden in eCopy Ver.9-Paperworks unterstützt). Dies gilt für 8.5 eCopy Desktop.
Command Line Cpy Converter Version 8.5 (Build 0.116)
Copyright c 1992 - 2004. All rights reserved.
Converts CPY to CPY, CPY to TIF or TIF to CPY
Usage:
cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]
Note:
Wildcards are not supported. Full paths must be used for source and destinatio
n
Switches:
--------------------
-? : This menu
-Q : Turn off logging.
-P : Converter pauses after conversion.
-E : Converter pauses if there is an error.
-B : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>" : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD> : Password for encrypting and decrypting documents.
--------------------
* If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
* If the source document is not encrypted CPY converter will attempt to encrypt
the destination document using the supplied password.
* Please note you cannot encrypt/decrypt tif documents.
-<Conversion Type> : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C - Convert TIF(Any group) to CPY
* U - Convert CPY to CPY
Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy
Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3
Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4
Antwort2
Unter Linux
Zuerst müssen Sie die PDF
Dateien einer OCR-Erkennung unterziehen, die noch nicht OCR-fähig sind. Ich habe eine recht einfache Methode geschrieben, um alle PDF-Dateien zu durchsuchen grep
und einer OCR-Erkennung zu unterziehen, die nicht bearbeitet werden können.
Mir ist aufgefallen, dass eine pdf
Datei, die keine Schriftart enthält, normalerweise nicht durchsuchbar ist. Wenn wir das wissen, können wir verwenden pdffonts
.
Die ersten beiden Zeilen pdffonts
sind die Tabellenüberschrift. Wenn eine Datei durchsuchbar ist, hat sie also eine Ausgabe mit mehr als zwei Zeilen. Mit diesem Wissen können wir Folgendes erstellen:
gedit check_pdf_searchable.sh
dann fügen Sie dies ein
#!/bin/bash
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi
dann machen Sie es ausführbar
chmod +x check_pdf_searchable.sh
dann liste alle nicht durchsuchbaren PDFs im Verzeichnis auf:
ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}
oder im Verzeichnis und seinen Unterverzeichnissen:
tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}
Antwort3
Am einfachsten geht das mit einemOnline-OCR-APIDie OCR.Space-API unterstützt die Erstellung vondurchsuchbare PDFsDer Dienst bietet ein kostenloses Konvertierungsprogramm mit 25.000 Konvertierungen pro Monat.
Sie können dies dann mit Powershell, Batch oder einer anderen Skriptsprache automatisieren. Lösen Sie die Konvertierung beispielsweise per Batch mit cURL aus:
curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image